Python脚本Selenium及页面Web元素定位详解
什么是Selenium?
Selenium是一款常用的Web应用程序测试框架,可以通过自动化的方式进行Web UI测试。Selenium支持多种程序语言,包括Python、Java等,它能够模拟浏览器的运行行为,方便进行测试的效果检查。Selenium在自动化网页测试及Web Scraping方面都有广泛应用。
如何安装Selenium?
Python实现Selenium主要需要安装Selenium和WebDriver两个模块。使用pip安装即可:
pip install selenium
WebDriver需要根据使用的浏览器类型在官网下载相应的驱动程序。比如,Google Chrome浏览器的WebDriver下载链接为https://sites.google.com/chromium.org/driver/downloads。
如何使用Selenium?
1.创建浏览器引擎对象
使用Selenium首先需要创建一个浏览器引擎对象,这可以通过如下代码完成:
from selenium import webdriver
driver = webdriver.Chrome(executable_path='/path/to/chromedriver')
其中Chrome对应的是要使用的浏览器类型,executable_path对应的是浏览器的驱动程序路径。如果已经将执行路径添加到环境变量中,就可以省略executable_path参数。
2.打开网址并操作Web元素
通过以上方式创建好浏览器引擎对象后,就可以使用Selenium对指定的Web页面进行自动化操作。我们可以使用driver.get(url)方法打开一个新的页面,然后使用find_element_by_*等方法查找页面上的Web元素。
假设我们需要访问搜索引擎Google,并搜索Python,以下是使用Selenium实现的示例代码:
from selenium import webdriver
driver = webdriver.Chrome(executable_path='/path/to/chromedriver')
driver.get('https://www.google.com')
search_box = driver.find_element_by_name('q')
search_box.send_keys('Python')
search_box.submit()
其中,find_element_by_name()方法通过页面元素的name属性定位元素,send_keys()方法对元素进行输入操作,submit()方法提交表单。以上代码实现了打开Google,输入Python关键字并进行搜索的过程。
3.定位Web元素
如何准确地定位页面上的Web元素?可以通过以下方式定位:
- find_element_by_id(id)
- find_element_by_name(name)
- find_element_by_xpath(xpath)
- find_element_by_link_text(link_text)
- find_element_by_partial_link_text(partial_link_text)
- find_element_by_tag_name(tag_name)
- find_element_by_class_name(class_name)
- find_element_by_css_selector(css_selector)
以百度首页为例,以下是通过Selenium查找百度搜索条目的代码示例:
from selenium import webdriver
driver = webdriver.Chrome(executable_path='/path/to/chromedriver')
driver.get('https://www.baidu.com')
search_box = driver.find_element_by_id('kw')
search_box.send_keys('Python')
search_box.submit()
其中,find_element_by_id()方法根据元素的id属性确定元素,find_element_by_xpath()方法是通过元素的相对位置和标签属性等信息确定。
示例1:使用Selenium实现国际空间站实时追踪
以下示例通过Selenium实现了国际空间站的实时追踪,实现的功能包括获取当前时间、经度、纬度、当前位置、可见天体等信息,然后将这些信息输出到控制台。
from selenium import webdriver
import time
driver = webdriver.Chrome(executable_path='/path/to/chromedriver')
driver.get('https://www.n2yo.com/')
time.sleep(5) # 加载页面需要一定的时间
driver.execute_script('document.getElementById("lat").value = "22.314202"') # 设置纬度
driver.execute_script('document.getElementById("lon").value = "113.934036"') # 设置经度
time.sleep(5) # 需要一定的时间重新加载
div = driver.find_element_by_id('infoContent')
timeStr = div.find_element_by_id('info-date').text # 获取时间
latStr = div.find_element_by_id('info-latitude').text # 获取纬度
lonStr = div.find_element_by_id('info-longitude').text # 获取经度
posStr = div.find_element_by_id('info-location').text # 获取位置
seenStr = div.find_element_by_id('info-visibility').text # 获取可见天体
print('Time:', timeStr)
print('Latitude:', latStr)
print('Longitude:', lonStr)
print('Position:', posStr.strip())
print('Seen:', seenStr.strip())
driver.close()
以上代码中,我们首先通过webdriver对象打开空间站追踪页面,然后设置了站点的经度和纬度信息。接下来,需要等待一定时间,以便页面加载完成。我们通过find_element_by_id()方法查找到包含有实时追踪信息的页面块,从中提取我们需要的信息,并将这些信息打印到控制台上。
示例2:使用Selenium实现微博登录
以下示例通过Selenium模拟登录微博平台,并实现获取当前登录用户的粉丝数。
from selenium import webdriver
import time
driver = webdriver.Chrome(executable_path='/path/to/chromedriver')
driver.get('https://www.weibo.com')
time.sleep(5)
login_btn = driver.find_element_by_xpath('//a[@node-type="loginBtn"]') # 查找登录按钮
login_btn.click()
time.sleep(5)
email_input = driver.find_element_by_id('loginname') # 查找邮箱输入框
password_input = driver.find_element_by_name('password') #查找密码输入框
email_input.clear() # 清除邮箱输入框
password_input.clear() # 清除密码输入框
email_input.send_keys('your_email') # 输入邮箱
password_input.send_keys('your_password') # 输入密码
time.sleep(2)
login_submit = driver.find_element_by_xpath('//a[@node-type="submitBtn"]') # 查找登录按钮
login_submit.click()
time.sleep(5)
user_menu = driver.find_element_by_xpath('//a[@node-type="name"]')
user_menu.click()
time.sleep(5)
fans_num = driver.find_element_by_xpath('//strong[@node-type="fans"]')
print('Current user fans:', fans_num.text)
driver.close()
以上代码中,我们首先通过webdriver对象打开微博主页面,然后查找登录按钮,并通过输入框输入邮箱和密码。接下来,我们等待页面加载完毕,然后点击登录按钮进行登录。登录成功后,我们需要查找当前用户粉丝数的对应页面元素,最后将其输出到控制台上。
本站文章如无特殊说明,均为本站原创,如若转载,请注明出处:Python脚本Selenium及页面Web元素定位详解 - Python技术站