05 爬虫请求库之selenium库

一. 介绍

selenium最初是一个自动化测试工具,而爬虫中使用它主要是为了解决requests无法直接执行JavaScript代码的问题

selenium本质是通过驱动浏览器，完全模拟浏览器的操作，比如跳转、输入、点击、下拉等，来拿到网页渲染之后的结果，可支持多种浏览器

官网: https://selenium-python.readthedocs.io

from selenium import webdriver

browser = webdriver.Chrome()
browser = webdriver.Firefox()
browser = webdriver.PhantomJS()
browser = webdriver.Safari()
browser = webdriver.Edge()

二. 安装

1. 有界面浏览器

1) 安装：selenium

pip3 install selenium

2) 安装: chromedriver

版本注意: 下载 chromdriver.exe放到python安装路径的scripts目录中, 版本需要等于或者小于你正常使用的浏览器.

国内镜像网站地址：http://npm.taobao.org/mirrors/chromedriver/2.38/
最新的版本去官网: https://sites.google.com/a/chromium.org/chromedriver/downloads

3) 验证安装

C:\Users\Administrator>python3
Python 3.6.1 (v3.6.1:69c0db5, Mar 21 2017, 18:41:36) [MSC v.1900 64 bit (AMD64)] on win32
Type "help", "copyright", "credits" or "license" for more information.
>>> from selenium import webdriver
>>> driver=webdriver.Chrome() #弹出浏览器
>>> driver.get('https://www.baidu.com')
>>> driver.page_source

4) 关于selenium3对Firfox支持的webdriver有所不同

注意: selenium3默认支持的webdriver是Firfox，而Firefox需要安装geckodriver

下载链接：https://github.com/mozilla/geckodriver/releases

2. 无界面浏览器

1) 安装：selenium

pip3 install selenium

2) 安装：phantomjs

提示: PphantomJS不再跟新

下载：http://phantomjs.org/download.html

3) 验证安装

C:\Users\Administrator>phantomjs
phantomjs> console.log('egon gaga')
egon gaga
undefined
phantomjs> ^C
C:\Users\Administrator>python3
Python 3.6.1 (v3.6.1:69c0db5, Mar 21 2017, 18:41:36) [MSC v.1900 64 bit (AMD64)] on win32
Type "help", "copyright", "credits" or "license" for more information.
>>> from selenium import webdriver
>>> driver=webdriver.PhantomJS() #无界面浏览器
>>> driver.get('https://www.baidu.com')
>>> driver.page_source
selenium+phantomjs

4) selenuum加谷歌浏览器的headless模式

在PhantomJS年久失修,后继无人的节骨眼, Chrome出来救场,再次成为了反爬虫Team的噩梦
自Google发布chrome 59 / 60正式版开始便支持Headless mode, 这意味着在无GUI环境下，PhantomJS不再是唯一选择

# selenium: 3.12.0
# webdriver:2.38
# chrome.exe: 65.0.3325.181（正式版本） （32 位）

from selenium import webdriver
from selenium.webdriver.chrome.options import Options

chrome_options = Options()
chrome_options.add_argument('window-size=1920x1080')       # 指定浏览器分辨率
chrome_options.add_argument('--disable-gpu')               # 谷歌文档提到需要加上这个属性来规避bug
chrome_options.add_argument('--hide-scrollbars')           # 隐藏滚动条, 应对一些特殊页面
chrome_options.add_argument('blink-settings=imagesEnabled=false')  # 不加载图片, 提升速度
chrome_options.add_argument('--headless')                 # 浏览器不提供可视化页面. linux下如果系统不支持可视化不加这条会启动失败
# chrome_options.binary_location = r"C:\Program Files (x86)\Google\Chrome\Application\chrome.exe"           # 手动指定使用的浏览器位置

driver = webdriver.Chrome(chrome_options=chrome_options)

try:
    driver.get('https://www.cnblogs.com/yang1333/')
    print('爬虫' in driver.page_source)  # True

finally:
    driver.close()  # 切记关闭浏览器，回收资源

三. 基本使用

'''
browser.page_source      获取当前页面内容
browser.current_url      获取当前url
browser.get_cookies      获取当前cookies

from selenium.webdriver.common.keys import Keys
tag.send_keys(Key.ENTER)  回车键
'''
from selenium import webdriver
from selenium.webdriver.common.keys import Keys  # 键盘按键操作

browser = webdriver.Chrome()
browser.implicitly_wait(10)
try:
    browser.get('https://www.baidu.com')

    input_tag = browser.find_element_by_id('kw')
    input_tag.send_keys('美女')       # python2中输入中文错误，字符串前加个u
    input_tag.send_keys(Keys.ENTER)  # 输入回车

    browser.find_element_by_id('content_left')

    print(browser.page_source)
    print(browser.current_url)
    print(browser.get_cookies())

finally:
    browser.close()

四. 等待元素被加载

# 介绍: 
	seleni um只是模拟浏览器的行为，而浏览器解析页面是需要时间的(执行css，js)，
    一些元素 可能需要过一段时间才能加载出来，为了保证能查找到元素，必须等待

# 等待的方式分两种: 
    隐式等待: 在browser.get ('xxx') 前就设置，针对所有元素有效
        browser.implicitly_wait(等待时间)
    显式等待: 在browser.get ('xxx') 之后设置，只针对某个元素有效

1. 隐士等待

import time
from selenium import webdriver

browser = webdriver.Chrome()
try:
    browser.implicitly_wait(5)  # 隐士等待
    browser.get('https://www.baidu.com')

    # 找到登录按钮, 并点击
    login_tag = browser.find_element_by_link_text('登录')
    login_tag.click()

    # 找到使用用户名登录, 并点击
    login_method_tag = browser.find_element_by_id('TANGRAM__PSP_11__footerULoginBtn')
    login_method_tag.click()

    # 找到用户名和密码输入框, 输入用户名, 密码. 点击登录
    time.sleep(2)
    username_tag = browser.find_element_by_id('TANGRAM__PSP_11__userName')
    password_tag = browser.find_element_by_id('TANGRAM__PSP_11__password')
    username_tag.send_keys('用户名')
    password_tag.send_keys('用户密码')
    login_tag = browser.find_element_by_id('TANGRAM__PSP_11__submit')
    login_tag.click()
    time.sleep(2)

    print(browser.get_cookies())
finally:
    browser.close()  #  注意: 一定要关闭

2. 显示等待

from selenium import webdriver
from selenium.webdriver.common.by import By  # 按照什么方式查找，By.ID,By.CSS_SELECTOR
from selenium.webdriver.common.keys import Keys  # 键盘按键操作
from selenium.webdriver.support import expected_conditions as EC
from selenium.webdriver.support.wait import WebDriverWait  # 等待页面加载某些元素

browser = webdriver.Chrome()
try:
    browser.get('https://www.baidu.com')

    input_tag = browser.find_element_by_id('kw')
    input_tag.send_keys('美女')
    input_tag.send_keys(Keys.ENTER)

    # 显式等待：显式地等待某个元素被加载
    wait = WebDriverWait(browser, 10)
    wait.until(EC.presence_of_element_located((By.ID, 'content_left')))

    contents = browser.find_element(By.CSS_SELECTOR, '#content_left')
    print(contents)
finally:
    browser.close()

五. 选择器

官网链接：http://selenium-python.readthedocs.io/locating-elements.html

1、find_element_by_id                    # 通过id查找控件
2、find_element_by_link_text             # 通过a标签内容找
3、find_element_by_partial_link_text     # 通过a标签内容找，模糊匹配
4、find_element_by_tag_name              # 标签名
5、find_element_by_class_name            # 类名
6、find_element_by_name                  # name属性
7、find_element_by_css_selector          # 通过css选择器
8、find_element_by_xpath                 # 通过xpaht选择器

补充: find_elements_by_xxx的形式是查找到多个元素，结果为列表

六. 获取元素属性

'''
tag.get_attribute('href')  # 找当前控件 的href属性对的值
tag.text                   # 获取文本内容

print(tag.id)              # 当前控件id号
print(tag.location)        # 当前控件在页面位置
print(tag.tag_name)        # 标签名
print(tag.size)            # 标签的大小
'''
from selenium import webdriver


browser = webdriver.Chrome()

try:
    browser.implicitly_wait(10)
    browser.get('https://www.cnblogs.com//')

    tag = browser.find_element_by_class_name('post-item-title')

    # 获取标签属性，
    print(tag.get_attribute('href'))  # https://www.cnblogs.com/cafuc20160512056/p/13440771.html
    print(tag.text)      # 求解最长递增子序列（LIS） | 动态规划（DP）+ 二分法

    # 获取标签ID，位置，名称，大小（了解）
    print(tag.id)        # ab9310c1-68c4-49a1-8a5d-903b3fb760e4
    print(tag.location)  # {'x': 242, 'y': 166}
    print(tag.tag_name)  # a
    print(tag.size)      # {'height': 50, 'width': 345}
finally:
    browser.close()

七. 元素交互

1. 执行元素

'''
tag.send_keys()  # 往里面写内容
tag.click()      # 点击控件
tag.clear()      # 清空控件内容
'''
import time
from selenium import webdriver

browser = webdriver.Chrome()
try:
    browser.implicitly_wait(10)
    browser.get('https://www.amazon.cn/')

    input_tag = browser.find_element_by_id('twotabsearchtextbox')
    input_tag.send_keys('iphone 8')     # 往里面写内容
    button = browser.find_element_by_css_selector('#nav-search > form > div.nav-right > div > input')
    button.click()     # 点击控件

    time.sleep(3)

    input_tag = browser.find_element_by_id('twotabsearchtextbox')
    input_tag.clear()  # 清空输入框
    input_tag.send_keys('iphone7plus')  # 往里面写内容
    button = browser.find_element_by_css_selector('#nav-search > form > div.nav-right > div > input')
    button.click()    # 点击控件
finally:
    browser.close()

2. 执行js

1) 基本命令

'''
brower.execute_script('js代码')
'''
from selenium import webdriver
import time

browser = webdriver.Chrome()
try:
    browser.implicitly_wait(5)
    browser.get('https://www.baidu.com/')

    browser.execute_script('window.open()')  # 新建窗口打开页面
    browser.execute_script('window.open()')  # 新建窗口打开页面
    time.sleep(2)
except:
    browser.close()

2) 如何让浏览器滚动条滑到底部

browser.execute_script('window.scrollTo(0, dowument.body.offsetHeight)')

3) 更改标签的属性值

from selenium import webdriver
import unittest


def addAttribute(driver, elementobj, attributeName, value):
    '''
    封装向页面标签添加新属性的方法
    调用JS给页面标签添加新属性，arguments[0]~arguments[2]分别
    会用后面的element，attributeName和value参数进行替换
    添加新属性的JS代码语法为：element.attributeName=value
    比如input.name='test'
    '''
    driver.execute_script("arguments[0].%s=arguments[1]" % attributeName, elementobj, value)


def setAttribute(driver, elementobj, attributeName, value):
    '''
    封装设置页面对象的属性值的方法
    调用JS代码修改页面元素的属性值，arguments[0]~arguments[1]分别
    会用后面的element，attributeName和value参数进行替换
    '''
    driver.execute_script("arguments[0].setAttribute(arguments[1],arguments[2])", elementobj, attributeName, value)


def getAttribute(elementobj, attributeName):
    # 封装获取页面对象的属性值方法
    return elementobj.get_attribute(attributeName)


def removeAttribute(driver, elementobj, attributeName):
    '''
    封装删除页面属性的方法
    调用JS代码删除页面元素的指定的属性，arguments[0]~arguments[1]分别
    会用后面的element，attributeName参数进行替换
    '''
    driver.execute_script("arguments[0].removeAttribute(arguments[1])",
                          elementobj, attributeName)


class TestDemo(unittest.TestCase):
    def setUp(self):
        self.driver = webdriver.Chrome()

    def test_dataPicker(self):
        url = "D:\PycharmProjects\zouzou\dom.html"
        self.driver.get(url)
        element = self.driver.find_element_by_xpath('//input')

        # 向页面文本框input标签中添加新属性name='search'
        addAttribute(self.driver, element, 'name', 'search')
        # 添加新属性后，查看一下新属性值
        print('添加的新属性值%s="%s"' % ("name", getAttribute(element, "name")))

        print('更改文本框中内容前的value的值：', getAttribute(element, 'value'))
        # 更改value的属性值为“这是更改后的值”
        setAttribute(self.driver, element, 'value', '这是更改后的值')
        print('更改后value的值为：', getAttribute(element, 'value'))

        # 查看更改前input页面元素中size属性值
        print('更改前size的属性值为：', getAttribute(element, 'size'))
        # 更改input的属性值为20
        setAttribute(self.driver, element, 'size', 20)
        print('更改后size的属性值为：', getAttribute(element, 'size'))

        # 查看删除input页面元素value属性前的值
        print('删除前文本框value的值：', getAttribute(element, 'value'))
        # 删除属性值
        removeAttribute(self.driver, element, 'value')
        print('删除后文本框value的值：', getAttribute(element, 'value'))


if __name__ == '__main__':
    unittest.main()

参考: https://www.cnblogs.com/zouzou-busy/p/11285732.html

3. 执行DOM：模拟浏览器前进后退

'''
browser.back()      # 回退到上一页
browser.forward()   # 前进到下一页
'''
from selenium import webdriver
import time

browser = webdriver.Chrome()
try:
    browser.get('https://www.taobao.com/')
    browser.get('http://www.sina.com.cn/')

    browser.back()      # 回退到上一页
    time.sleep(1)
    browser.forward()   # 前进到下一页
finally:
    browser.close()

八. cookies

'''
browser.get_cookies()            获取所有的cookie
browser.get_cookie(name)         获取指定的某一个cookie值
browser.add_cookie(cookie_dict)  添加指定的cooke
browser.delete_cookie(name)      删除某一个cookie
browser.delete_all_cookies()     删除所有的cookie
'''
from selenium import webdriver

browser = webdriver.Chrome()

try:
    browser.get('https://www.zhihu.com/explore/')
    print(browser.get_cookies())
    browser.add_cookie({'k1': 'xxx', 'k2': 'yyy'})
    print(browser.get_cookies())
    browser.delete_all_cookies()

finally:
    browser.close()

九. 选项卡管理

选项卡管理：切换选项卡，有js的方式windows.open,有windows快捷键：ctrl+t等，最通用的就是js的方式

import time
from selenium import webdriver

browser = webdriver.Chrome()
browser.get('https://www.baidu.com')

try:
    browser.execute_script('window.open()')
    print(browser.window_handles)  # 获取所有的选项卡

    browser.switch_to_window(browser.window_handles[1])  # 切换到选择卡1执行get操作
    browser.get('https://www.taobao.com')
    time.sleep(3)
    browser.switch_to_window(browser.window_handles[0])  # 切换到选项卡0执行get操作
    browser.get('https://www.sina.com.cn')
finally:
    browser.close()

十. 异常处理

from selenium import webdriver
from selenium.common.exceptions import TimeoutException, NoSuchElementException, NoSuchFrameException

browser = webdriver.Chrome()
try:
    browser.get('')
except Exception as e:
    print(e)
finally:
    # 无论是否出异常，最终都要关掉
    browser.close()

十一. 动作链frame

1. 介绍

# frame相当于一个单独的网页，在父frame里是无法直接查看到子frame的元素的，必须switch_to_frame切到该frame下，才能进一步查找
'''
browser.switch_to.frame('iframeResult')  # 切换到id为iframeResult的frame
browser.switch_to.parent_frame()         # 切回父frame
'''

from selenium import webdriver

browser = webdriver.Chrome()
try:
    browser.get('http://www.runoob.com/try/try.php?filename=jqueryui-api-droppable')

    browser.switch_to.frame('iframeResult')  # 切换到id为iframeResult的frame

    tag1 = browser.find_element_by_id('droppable')
    print(tag1)

    # tag2 = browser.find_element_by_id('textareaCode') # 报错，在子frame里无法查看到父frame的元素
    browser.switch_to.parent_frame()  # 切回父frame,就可以查找到了
    tag2 = browser.find_element_by_id('textareaCode')
    print(tag2)

finally:
    browser.close()

2. selenium之frame操作

问题: 很多时候定位元素时候总是提示元素定位不到的问题, 然而明明元素就在那里.

解决: 注你所定位的元素是否在frame和iframe里面

frame标签包含frameset、frame、iframe三种，frameset和普通的标签一样，不会影响正常的定位，而iframe和frame需要进行一些特殊的处理

1) 切到frame中: switch_to.frame()

# 示例
<body>
<iframe src="a.html" ></iframe>
</body>

# 获取
from selenium import webdriver

driver = webdriver.Chrome()
driver.switch_to.frame(0)            # 1.用frame的index来定位，第一个是0
# driver.switch_to.frame("frame1")   # 2.用id来定位
# driver.switch_to.frame("myframe")  # 3.用name来定位
# driver.switch_to.frame(driver.find_element_by_tag_name("iframe"))  # 4.用WebElement对象来定位

2) 从frame中切回主文档: switch_to.default_content()

driver.switch_to.default_content()

3) 嵌套frame: switch_to.parent_frame()

# 示例
<html>
    <iframe >
        <iframe  / >
    </iframe>
</html>

# 获取: 从主文档切到frame2，一层层切进去
driver.switch_to.frame("frame1")
driver.switch_to.frame("frame2")

本站文章如无特殊说明，均为本站原创，如若转载，请注明出处：05 爬虫请求库之selenium库 - Python技术站

05 爬虫请求库之selenium库

一. 介绍

二. 安装

1. 有界面浏览器

1) 安装：selenium

2) 安装: chromedriver

3) 验证安装

4) 关于selenium3对Firfox支持的webdriver有所不同

2. 无界面浏览器

1) 安装：selenium

2) 安装：phantomjs

3) 验证安装

4) selenuum加谷歌浏览器的headless模式

三. 基本使用

四. 等待元素被加载

1. 隐士等待

2. 显示等待

五. 选择器

六. 获取元素属性

七. 元素交互

1. 执行元素

2. 执行js

1) 基本命令

2) 如何让浏览器滚动条滑到底部

3) 更改标签的属性值

3. 执行DOM：模拟浏览器前进后退

八. cookies

九. 选项卡管理

十. 异常处理

十一. 动作链frame

1. 介绍

2. selenium之frame操作

1) 切到frame中: switch_to.frame()

2) 从frame中切回主文档: switch_to.default_content()

3) 嵌套frame: switch_to.parent_frame()

相关文章