爬虫的浏览器伪装技术（高度伪装）

2023年4月16日下午8:55 • 爬虫

 1 import urllib.request
 2 import http.cookiejar
 3 
 4 url = "http://www.baidu.com"
 5 file_path = "E:/workspace/PyCharm/codeSpace/books/python_web_crawler_book/chapter6/demo5/1.html"
 6 
 7 # 添加报头 注意"Accept-Encoding": "gb2312, utf-8" 防止解码而出现乱码
 8 headers = {"Accept": "text/html,application/xhtml+xml,application/xml;q=0.9,*/*;q=0.8","Accept-Encoding": "gb2312, utf-8","Accept-Language": "zh-CN,zh;q=0.8,en-US;q=0.5,en;q=0.3","User-Agent": "Mozilla/5.0 (Windows NT 10.0; WOW64; rv:52.0) Gecko/20100101 Firefox/52.0",    "Connection": "keep-alive","Host": "baidu.com"
 9 }
10 cjar = http.cookiejar.CookieJar()
11 opener = urllib.request.build_opener(urllib.request.HTTPCookieProcessor(cjar))
12 headall = []
13 for key,value in headers.items():
14     item = (key,value)
15     headall.append(item)
16 opener.addheaders = headall
17 urllib.request.install_opener(opener)
18 print(urllib.request.urlopen(url).read().decode('utf-8'))

本站文章如无特殊说明，均为本站原创，如若转载，请注明出处：爬虫的浏览器伪装技术（高度伪装） - Python技术站

赞 (0)

微信扫一扫

微信扫一扫

支付宝扫一扫

支付宝扫一扫

Python网络爬虫笔记（二）：链接爬虫和下载限速

上一篇 2023年4月16日

爬虫– 初级

下一篇 2023年4月16日

如何处理网站结构变化导致的爬虫失败？

处理网站结构变化导致的爬虫失败的攻略如下： 1. 分析问题当爬虫无法正常工作时，我们需要首先确定问题是由网站结构变化所导致的。可以采取以下几种方式进行分析：检查logs：查看爬虫的运行日志，观察异常信息手动模拟请求：通过浏览器的开发工具模拟请求，在开发者模式下查看响应，检查响应内容是否与预期一致。比较网页源码：通过对比新旧版本的网页源码，查找网站结构…

爬虫 2023年4月20日
000
Python爬虫谷歌Chrome F12抓包过程原理解析

Python爬虫谷歌Chrome F12抓包过程原理解析在爬虫开发中，有许多工具和技术能够用于数据的采集，其中，F12抓包技术是一种非常重要和实用的技术。通过F12抓包可以有效地分析目标网站的结构和数据获取方式，从而帮助开发者更好地优化自己的数据采集方案。 F12抓包原理解析 F12抓包是借助Chrome浏览器的开发者工具来实现的，其具体原理如下：首先，…

python 2023年5月14日
000
<原创>关于爬虫的远程部署之Scrapyd

Scrapyd 的远程部署和监控 1. 安装Scrapydsudo pip install scrapyd # 安装scrapyd服务sudo pip install scrapyd-client # 安装scrapyd客户端 2. 启动scrapyd服务scrapyd # 启动服务，端口号 6800 远程连接：打开浏览器，192.168.xx.xx:…

爬虫 2023年4月11日
000
爬虫入门—-小说下载(静态网页的文字爬取)

工具　　Python3.6 + Requests + BeautifulSoup4　　PS：点击 Requests 或 BeautifulSoup 可查看对应中文文档任务　　通过Python的爬虫下载一本小说。　　此次爬取的网站为 http://www.kbiquge.com/ 分析　　首先我们随便打开一个小说打开一章看看　　如：斗罗大陆的引子穿…

爬虫 2023年4月10日
000
Python爬虫实现vip电影下载的示例代码

Python爬虫实现vip电影下载的示例代码，是指使用Python语言编写爬虫程序，模拟浏览器行为，实现获取VIP电影下载链接，从而实现免费下载VIP电影的功能。以下是该攻略的完整步骤。确定目标网站首先，需要确定一个目标网站，该网站提供VIP电影的下载链接，如爱奇艺、腾讯视频等。这里以腾讯视频为例。分析网页源代码使用浏览器开发者工具（Chrome浏览…

python 2023年5月14日
000
爬虫（四）-大众点评，css+svg

地址：http://www.dianping.com/shop/9964442 好多字没了，替代的是<x class=”xxx”></x>这种css标签定位到位置找到文字 SVG svg可以写字，xy是相对svg标签的坐标，单位px textPath 用xlink:href标记文字路径，就是文字排列方向，文字按方…

爬虫 2023年4月11日
000
爬虫

想开发网页爬虫，发现被反爬了？想对 App 抓包，发现数据被加密了？不要担心，这里可以为你解决。

全面超越Appium，使用Airtest超快速开发App爬虫想开发网页爬虫，发现被反爬了？想对 App 抓包，发现数据被加密了？不要担心，使用 Airtest 开发 App 爬虫，只要人眼能看到，你就能抓到，最快只需要2分钟，兼容 Unity3D、Cocos2dx-*、Android 原生 App、iOS App、Windows Mobile……。 Air…

2023年4月8日
000
python爬虫入门（二）Opener和Requests

Handler和Opener Handler处理器和自定义Opener opener是urllib2.OpenerDirector的实例，我们之前一直在使用urlopen，它是一个特殊的opener(也就是我们构建好的)。但是urlopen()方法不支持代理、cookie等其他的HTTP/GTTPS高级功能。所有要支持这些功能：　　1.使用相关的Hand…

爬虫 2023年4月13日
000

合作推广

合作推广

返回顶部