爬虫 selenium+Xpath 爬取动态js页面元素内容

2023年4月12日下午11:23 • 爬虫

介绍

selenium最初是一个自动化测试工具,而爬虫中使用它主要是为了解决requests无法直接执行JavaScript代码的问题

selenium本质是通过驱动浏览器，完全模拟浏览器的操作，比如跳转、输入、点击、下拉等，来拿到网页渲染之后的结果，可支持多种浏览器

from selenium import webdriver
browser=webdriver.Chrome()
browser=webdriver.Firefox()
browser=webdriver.PhantomJS()
browser=webdriver.Safari()
browser=webdriver.Edge()

安装

#安装：selenium+chromedriver
pip3 install selenium
下载chromdriver.exe添加环境变量或者放到python安装路径的scripts目录中即可
国内镜像网站地址：http://npm.taobao.org/mirrors/chromedriver
最新的版本去官网找:https://sites.google.com/a/chromium.org/chromedriver/downloads


#注意：
selenium3默认支持的webdriver是Firfox，而Firefox需要安装geckodriver
下载链接：https://github.com/mozilla/geckodriver/releases

selenium下载浏览器驱动下载

本站文章如无特殊说明，均为本站原创，如若转载，请注明出处：爬虫 selenium+Xpath 爬取动态js页面元素内容 - Python技术站

赞 (0)

微信扫一扫

微信扫一扫

支付宝扫一扫

支付宝扫一扫

爬虫 scrapy框架

上一篇 2023年4月12日

爬虫 http原理,梨视频,github登陆实例,requests请求参数小总结

下一篇 2023年4月12日

初步认识网络爬虫

无论你是由于什么原因想做一个网络爬虫，首先做的第一件事情就是要了解它。在了解网络爬虫之前一定要牢记以下4个要点，这是做网络爬虫的基础： 1.抓取 py的urllib不一定去用，但是要学，如果你还没用过的话。比较好的替代品有requests等第三方更人性化、成熟的库，如果pyer不了解各种库，那就白学了。抓取最基本就是拉网页回来。如果深入做…

爬虫 2023年4月10日
000
python爬虫之BeautifulSoup

# -*- coding: UTF-8 -*- import re from bs4 import BeautifulSoup import requests import codecs import sys reload(sys) sys.setdefaultencoding(‘utf8’) def mei_url(): url = ‘http://mdl…

爬虫 2023年4月13日
000
写一个Python脚本自动爬取Bilibili小视频

下面是Bilibili小视频自动爬取的攻略： 1. 所需工具 Python编程语言 requests：一个非常流行的Python HTTP客户端库，可用于向远程服务器发送HTTP/1.1请求。 BeautifulSoup：一个用于解析HTML和XML文档的Python库，可用于从网站上抽取所需的数据。 2. 步骤概述 2.1 分析目标网站在开始编写Pyth…

python 2023年5月14日
000
Python 爬虫爬取指定博客的所有文章

下面是 Python 爬虫爬取指定博客的所有文章的完整攻略： 1. 获取网页源代码无论是用什么语言编写爬虫，第一步都需要获取目标网站的 HTML 或者 XML 源代码。Python 中可以利用 requests 库实现该操作。具体代码如下： import requests # 指定目标博客的 URL 地址 url = ‘http://target_blog…

python 2023年5月14日
000
日常反反爬虫

这里介绍几种工作中遇到过的常见反爬虫机制及应对策略。爬虫的君子协议有些网站希望被搜索引擎抓住，有些敏感信息网站不希望被搜索引擎发现。网站内容的所有者是网站管理员，搜索引擎应该尊重所有者的意愿，为了满足以上等等，就需要提供一种网站和爬虫进行沟通的途径，给网站管理员表达自己意愿的机会。有需求就有供应，robots协议就此诞生。 scrapy是默认遵守rob…

爬虫 2023年4月12日
000
Python爬虫工程师面试问题总结

当准备参加Python爬虫工程师的面试时，很多人都会感到有些紧张和困惑。为了帮助大家更好地应对面试问题，我总结了一篇“Python爬虫工程师面试问题总结”的攻略，以下是完整的攻略内容： 1. 爬虫基础问题在面试中，面试官通常会首先测试你对爬虫的基础知识掌握程度。这包括爬虫的定义、HTTP请求、解析网页等方面。这里列举几个常见的爬虫基础问题：什么是爬虫？爬…

python 2023年5月14日
000
2017.07.24 Python网络爬虫之urllib2修改Header

1.urllib2修改header：（1）在使用网络爬虫时，有一些站点不喜欢被程序访问（非人为访问），会检查连接者的“身份证”；默认情况下，urllib2把自己的版本号Python-urllib2/x.y作为自己的“身份证号码”来通过检查，这个身份证号码可能会让站点有点迷惑，或者干脆不工作（2）这时可以让python程序冒充浏览器访问网站，网站是通过浏览…

爬虫 2023年4月11日
000
python 图片爬虫抓取图片系列三——爬取搜狗图片库中的图片

来自《Python项目案例开发从入门到实战》（清华大学出版社郑秋生夏敏捷主编）中爬虫应用——抓取百度图片本文爬取了搜狗图片库中的图片，相对于爬取特定网页中的图片，爬取图片库中的图片相对复杂一些，复杂的原因主要在于图片的动态加载上。图片库中的图片太多，所以访问网页的时候不是一次性把图片全部加载出来，而是根据鼠标滚轮的行为进行动态加载。这会导致和之…

爬虫 2023年4月10日
000

合作推广

合作推广

返回顶部