高性能异步爬虫

2023年4月13日上午12:44 • 爬虫

目的：在爬虫中使用异步实现高性能的数据爬取操作。

异步爬虫的方式：

　　- 多线程：多进程（不建议）：

　　　　　　好处：可以为相关阻塞的操作单独开启线程或者进程，阻塞操作就可以异步执行；

　　　　　　弊端：无法无限制的开启多线程或者多进程；

　　 - 线程池、进程池（适当的使用）：

　　　　　　好处：可以降低系统对进程或者线程创建和销毁的一个频率，从而很好的降低系统的开销；

　　　　　　弊端：池中线程或进程的数量是有上限；

　　　- 单线程 + 异步协程（推荐）：　　　　　

         from multiprocessing.dummy import Pool

　　　　　　#实例化一个线程池对象
　　　　　　pool = Pool(4)
　　　　　　#将列表中每一个列表元素传递给get_page进行处理。
　　　　　　pool.map(要执行异步操作的函数,函数的参数)
　　　　　　pool.close()

　　　　　　event_loop:事件循环，相当于一个无限循环，我们可以把一些函数注册到这个事件循环上，当满足某些条件的时候，函数就会被循环执行。

　　　　　　coroutine:协程对象，我们可以将协程对象注册到事件循环中，他会被事件循环调用，我们可以使用，async关键字来定义一个方法，这个方法在调用时不会立即被执行，而是返回一个协程对象。

　　　　　　task:任务，他是对协程对象的进一步封装，包含了任务的各个状态；

　　　　　　future:代表将来执行或还没执行的任务，实际上和task没有本质区别；

　　　　　　async:定义一个协程；

　　　　　　await：用来挂起阻塞方法的执行；

本站文章如无特殊说明，均为本站原创，如若转载，请注明出处：高性能异步爬虫 - Python技术站

赞 (0)

微信扫一扫

微信扫一扫

支付宝扫一扫

支付宝扫一扫

看雪精华帖爬虫

上一篇 2023年4月13日

爬虫之重要的requests模块

下一篇 2023年4月13日

【原创】python爬虫获取网站数据并存入本地数据库

#coding=utf-8 import urllib import re import MySQLdb dbnumber = MySQLdb.connect(‘localhost’, ‘root’, ‘*******’, ‘dbname’) #连接本地数据库 cursor = dbnumber.cursor() def getHtml(url): page…

爬虫 2023年4月13日
000
Python常见反爬虫机制解决方案

Python常见反爬虫机制解决方案前言随着爬虫技术的不断发展，网站也开始有意识的采取反爬虫机制来限制爬虫对网站的访问。Python作为一种常用的爬虫语言，需要我们找到一些解决方案来应对这些反爬虫机制。验证码识别验证码是一种常见的反爬虫机制，它可以有效防止机器人恶意爬取网站数据。验证码识别技术可以用来破解验证码，从而突破这种反爬虫机制，使爬虫可以访问这…

python 2023年5月14日
000
如何模拟请求？

网络爬虫可以通过模拟请求来获取网页内容。模拟请求的过程可以简单地分为以下几个步骤：确定目标网页的URL地址。分析目标网页的请求方式和请求参数，并进行构造。发送请求，并获取相应的响应。解析响应内容，提取所需数据。下面我们来详细讲解每一步，并给出两个示例说明。确定目标网页的URL地址。在爬虫编写之前，需要先确定目标网页的URL地址。可以在浏览器中打…

爬虫 2023年4月20日
000
python爬虫人门（十）Scrapy框架之Downloader Middlewares

设置下载中间件（Downloader Middlewares）下载中间件是处于引擎(crawler.engine)和下载器(crawler.engine.download())之间的一层组件，可以有多个下载中间件被加载运行。当引擎传递请求给下载器的过程中，下载中间件可以对请求进行处理（例如增加http header信息，增加proxy信息等）；在下…

爬虫 2023年4月13日
000
python爬虫的工作原理

Python爬虫是通过编写程序来自动化访问网页并提取内容的过程。一般而言，爬虫分为以下几个步骤： 1.发送HTTP请求并获取页面内容爬虫首先发送HTTP请求到目标网站，请求相应的页面。可以使用Python中的requests或urllib库来完成HTTP请求过程，其中requests更为方便、简单易用。以使用requests库爬取“豆瓣电影Top250”…

python 2023年5月14日
000
笔记-爬虫部署及运行工具-scrapydweb

笔记-爬虫部署及运行工具-scrapydweb scrapyd是爬虫部署工具，但它的ui比较简单，使用不是很方便。 scrapydweb以scrapyd为基础，增加了ui界面和监控，使用非常方便。 2. 部署-scrapyd 使用scrapyd部署。注意：在windows下无法部署，因为不能执行scrapyd-deploy命令。 2.…

爬虫 2023年4月11日
000
python如何爬取网站数据并进行数据可视化

Python是一种通用编程语言，具有广泛的应用场景，其中包括网络爬虫和数据可视化。在这个攻略中，我们将使用Python爬虫库Scrapy和数据可视化库Matplotlib来提取和可视化网站数据。爬取网站数据 1. 安装Scrapy 在开始爬取数据之前，我们需要安装Scrapy爬虫框架。可以使用以下命令通过Python包管理器pip安装Scrapy： pip…

python 2023年5月14日
000
scrapy框架下爬虫实现详情页抓取

以爬取阳光阳光热线问政平台网站为例，进行详情页的爬取。 1 # -*- coding: utf-8 -*- 2 import scrapy 3 from yanguang.items import YanguangItem 4 5 class SunSpider(scrapy.Spider): 6 name = ‘sun’ 7 allowed_domai…

爬虫 2023年4月10日
000

合作推广

合作推广

返回顶部