基于协程的爬虫

2023年4月13日上午2:44 • 爬虫

说到协程，协程不是进程或线程，其执行过程更类似于子例程，或者说不带返回值的函数调用。

协程在执行过程中遇到阻塞时转而执行别的子程序，阻塞结束后再返回来接着执行。

在gevent里面，上下文切换是通过yielding来完成的

代码中用到requests,xpath

如果有不懂xpath的小伙伴 --> 传送门

requests不理解的小伙伴 -->传送门


monkey.patch_all()
用来在运行时动态修改已有的代码，而不需要修改原始代码
官方文档链接 --> monkey.patch_all()
附带一篇中文gevent指南 -->传送门

不多说直接上代码

程序实现了判断域名，url去重

定义exp_url为set()结构，达到去重效果，也可以用list,dict,数据库

exp_url=set()

此处为去重部分

1 if domain in url:
2     if url in exp_url:
3     　　return

全部代码

 1 from gevent import monkey
 2 import gevent
 3 import requests
 4 from lxml import etree
 5 
 6 monkey.patch_all()
 7 
 8 domain="quanxue.cn"
 9 exp_url=set()
10 defeated_url=[]
11 
12 
13 def requ(url):
14     jobs=[]
15     if domain in url:
16         if url in exp_url:
17             return
18         else:
19             exp_url.add(url)
20         print "GET:%s"%url
21         try:
22             req = requests.get(url)
23             data=req.content
24             select=etree.HTML(data)
25             links=select.xpath("//a/@href")
26             for link in links:
27                 if 'http://' not in link:
28                     link=url[:url.rindex('/')+1]+link
29                     jobs.append(gevent.spawn(requ,link))
30                 else:
31                     jobs.append(gevent.spawn(requ,link))
32             gevent.joinall(jobs)
33             print len(exp_url)
34         except Exception,e:
35             print "ERROR"
36             defeated_url.append(url)
37 
38 
39 if __name__ == '__main__':
40     try:
41         url="http://www.quanxue.cn"
42         requ(url)
43     except:
44         print exp_url
45         print defeated_url
46     finally:
47         print defeated_url
48         print exp_url

效果图

基于协程的爬虫

本站文章如无特殊说明，均为本站原创，如若转载，请注明出处：基于协程的爬虫 - Python技术站

赞 (0)

微信扫一扫

微信扫一扫

支付宝扫一扫

支付宝扫一扫

网络爬虫的提取爬虫实例

上一篇 2023年4月13日

Python爬虫总结

下一篇 2023年4月13日

python实现selenium网络爬虫的方法小结

Python实现Selenium网络爬虫的方法小结什么是Selenium？ Selenium是一个自动化测试工具，通过模拟真实的用户操作，例如点击、输入等，与网站进行交互，获取所需数据。安装Selenium 在Python中安装Selenium很简单，使用pip命令安装即可： pip install selenium 下载并配置浏览器驱动 Seleniu…

python 2023年5月14日
000
爬虫

不能爬小程序，叫什么会爬虫【参考资料也要看】 https://mp.weixin.qq.com/s/oDG3k_qjMZaoygZmz9OUDw

上次写的如何给小孩约马术课过程，见这里 Python 约课[1]，本想一劳永逸，但是好景不长，预约系统升级了，而且还换了服务商，从之前的公众号 H5 应用，换成了小程序，之前编写的方式直接失效，孩子又没马骑了谁叫他遇到一个程序员老爸呢？这点事儿难不倒我，开干小程序的不同之处与访问 H5 不同的是，小程序相当于一个 app，其上的操作是经过微信的封装的…

2023年4月13日
000
python实现知乎高颜值图片爬取

下面是“python实现知乎高颜值图片爬取”的完整攻略：知乎高颜值图片爬取 1. 确认目标在开始爬取之前，我们需要明确自己需要爬取的内容。本次爬取的目标是知乎上发布的高颜值图片，例如：https://www.zhihu.com/question/350483283/answer/1015350064 2. 获取网页源代码为了能够得到该问题下所有的回答，…

python 2023年5月14日
000
毕业设计中怎样用python写一个搜索引擎的分布式爬虫

http://hi.baidu.com/zhuangzebo/item/5fa891468ec6badec0a59257 用python编写分布式爬虫1、网络连接需要持续连接（persistent connection），DNS解析的瓶颈（先查本地DNS缓存）实现方法:基于python httplib（对http1.1完成对持续连接的支持(python的…

爬虫 2023年4月16日
000
python 黑板课爬虫闯关-第二关

#!/usr/bin/python # -*- coding:utf-8 -*- # Author: LiTianle # Time:2019/9/24 15:36 ”’ <h3>你需要在网址后输入数字53639</h3> <h3>下一个你需要输入的数字是10963. </h3> ”’ import r…

爬虫 2023年4月8日
000
网络爬虫（httpwebrequest）驴评网信息为例

之前写过一篇关于用webBrowser抓取动态网页信息的随笔。正如文中提到的，速度是硬伤，并且如果是非动态信息则不必这么麻烦，最近正好有一需求：抓取“驴评网”上的信息1、所有的州、国家、省、市、区名称2、该市的所有景点信息（该网站中，大部分都是以市级作为最后的支节点，如果是以区作为最终节点的则以区为单位获取相应景点信息）3、该市的所有酒店信息首先，我们需要…

爬虫 2023年4月11日
000
python实现知乎高颜值图片爬取

Python实现知乎高颜值图片爬取攻略简介本文介绍了如何使用Python爬取知乎上的高颜值图片，主要涉及到如何使用requests库发起HTTP请求，如何使用BeautifulSoup解析HTML页面，以及如何美化输出。步骤 1.导入所需库我们需要使用requests、BeautifulSoup库，因此我们首先需要导入这两个库。 import req…

python 2023年5月14日
000
爬虫

爬虫-识别图形验证码-tesserocr

引入：　　在学习爬虫的过程中，需要解决识别图形验证码的这一难题，网上推荐的方法都是通过tesserocr模块来实现，下面就是安装步骤以及过程中遇到的问题，记录一下。介绍： tesserocr 是 Python 的一个 OCR 识别库，但其实是对 tesseract 做的一层 Python API 封装，所以它的核心是 tesseract。因此，在安…

2023年4月8日
000

合作推广

合作推广

返回顶部