爬虫 Archives - Page 106 of 133

python爬虫—单线程+多任务的异步协程,selenium爬虫模块的使用

一丶单线程+多任务的异步协程特殊函数 # 如果一个函数的定义被async修饰后，则该函数就是一个特殊的函数 async def get_request(url): print(‘正在请求~~’, url) await asyncio.sleep(2) print(‘请求结束!!’, url) 协程对象 # – 对象: 特殊函数被调用后，函数内部的实现语句不…

爬虫 2023年4月11日

000

python3 爬虫4–解析链接

1.urlparse() 属于urllib.parse 在urlparse世界里面，一个标准的URL链接格式如下 scheme://nrtlooc/path;paramters?query#fragment 所以，一个url=’http://www.baidu.com/index.html;user?id=5#comment’ 我们使用urlparse的话，…

爬虫 2023年4月11日

000

python3 爬虫5–分析Robots协议

1Robots协议 Robots协议告诉了搜索引擎和爬虫那些页面可以抓取，那些不可以，通常是存放在robots.txt文件里面，位于网站的根目录下 robots.txt中内容的示范： User-agent:* //表示了搜索爬虫的名称，*表示对任何爬虫都有效 Disallow:/ //表示了不允许抓取的目录，/表示不允许抓取所有目录，没有写就代表允许抓取所有…

爬虫 2023年4月11日

000

Python：爬虫助你回家，12306余票监测！

一年一度的春运即将来临，各位看官回家的票有没有买好呢？反正小编已经按捺不住激动的心情，开始蠢蠢欲动了。但是作为技术控，就应该有技术控的抢票姿态，鉴于12306逆天的验证码，小编放弃了控制12306自动抢票的骚操作，开始走向自动余票提醒：有余票=>微信推送余票信息的道路。学习Python过程中会遇到很多问题，可以到我们的 python学习交流群【六…

爬虫 2023年4月11日

000

爬虫(三)：对requests、xpath模块

1.之前在网页中URl链接采用Urllib/Urllib2，但是现在加强版requests模块进行网页URl提取，requests库模拟登录或者登录动态网页 URL理解：网页抓取过程浏览器向服务器请求的过程：1.访问资源命名机制2.存放资源主机3.资源自身的路径对requests模块的入门：http://blog.csdn.net/iloveyin/art…

爬虫 2023年4月11日

000

爬虫(五)：生产者消费者方法

1.不使用锁的话，可能会产生线程的竞争：当共享一个对象（变量或者一个方法）加锁的操作在threading模块中，定义两种类型的琐：threading.Lock和threading.RLock。它们之间有一点细微的区别，通过比较下面两段代码来说明：import threading lock = threading.Lock() #Lock对象 lock.…

爬虫 2023年4月11日

000

爬虫

python爬虫获取疫情信息并存入mysql数据库实践

上一次做了全国疫情统计可视化图表，这次尝试着能不能实现数据库里的更新操作，首先考虑的就是python爬虫，因为它易操作，并且python学习也是日后必须的。通过从网上查阅学习，代码如下： import requests from bs4 import BeautifulSoup import re import pymysql import…

2023年4月11日

000

python3+Scrapy爬虫使用pipeline数据保存到文本和数据库，数据少或者数据重复问题

爬取的数据结果是没有错的，但是在保存数据的时候出错了，出现重复数据或者数据少问题。那为什么会造成这种结果呢？其原因是由于Spider的速率比较快，而scapy操作数据库操作比较慢，导致pipeline中的方法调用较慢，这样当一个变量正在处理的时候，一个新的变量过来，之前的变量的值就会被覆盖。就比如pipline的速率是1TPS，而spider的速率是5T…

爬虫 2023年4月11日

000

01_爬虫伪装成浏览器的四种方法

好多网站对于爬虫中没有进行浏览器伪装的会进行反爬，以糗事百科网站为例下面提供了三种方法添加headers，使爬虫能够伪装成浏览器访问。备注：方法二和方法三中省略了 import urllib.request url = ‘http://www.qiushibaike.com/’ 方法一：通过opener添加header 1 # 方法一：通过ope…

爬虫 2023年4月11日

001

爬虫（1）selenium头条新闻爬虫抓取

要求： 1、题目、url、作者、相对时间以及评论数量 2、存入mongoDB 3、模拟Chrome下拉异步加载新闻 4、相对时间的转换（1分钟前。。。。。）连接mongoDB，设置数据库名和集合名实例化Chrome，隐式等待5秒，点击科技新闻 execue_script 加载js命令运行，两个循环往下拉下去（这里设定…

爬虫 2023年4月11日

000