Python爬虫：scrapy 的运行流程和各模块的作用

2023年4月10日下午11:38 • 爬虫

爬虫 -> 起始URL封装Request -> 爬虫中间件 -> 引擎 -> 调度器(Scheduler): 缓存请求, 请求去重
调度器 -> 请求 -> 引擎 -> 经过下载器中间件 -> 下载器(发送请求, 获取响应数据, 封装Response)
下载器 - Response(响应) -> 经过下载器中间件 -> 引擎
引擎 - response -> 经过爬虫中间件 -> 爬虫 (解析数据, 提取URL封装请求, 提取数据)
爬虫:
- 提取URL封装请求 -> 爬虫中间件 -> 引擎 -> 调度器
- 提取数据 -> 引擎 -> 管道(Pipeline: 处理数据, 比如保存)

各个模块及作用:

爬虫模块:

构建起始请求 2. 响应数据解析(1. 提取URL封装请求, 2. 提取数据) (需要自己写)

调度器模块:

缓存请求 2. 请求去重 (已经实现了)

下载器模块:

　　发送请求, 获取响应数据,封装为Response(已经实现了)

管道模块:

　　处理数据, 比如保存(需要自己写)

引擎模块:

　　总指挥: 负责模块之间调度, 以及数据传递(已经实现了)

下载器中间件:

　　在引擎和下载器之间, 可以对请求和响应数据进行处理, 比如: 实现随机代理IP, 随机User-Agent

爬虫中间件:

　　爬虫和引擎之间, 可以对请求和响应数据进行处理, 比如过滤. (很少)

Python爬虫：scrapy 的运行流程和各模块的作用

本站文章如无特殊说明，均为本站原创，如若转载，请注明出处：Python爬虫：scrapy 的运行流程和各模块的作用 - Python技术站

赞 (0)

微信扫一扫

微信扫一扫

支付宝扫一扫

支付宝扫一扫

python3爬虫初探（一）之urllib.request

上一篇 2023年4月10日

爬虫：如何破解表单提交参数（FormDate）的网站，模拟发送Http的post表单提交方式的请求

下一篇 2023年4月10日

python gevent 爬虫

”’ 协程并发爬网页使用urllib 和 gevent 的时候，一般要添加一个人补丁monkey ”’ from urllib import request from gevent import monkey import gevent #把当前程序的所有 io 操作的做了标记 monkey.patch_all() def f(url): prin…

爬虫 2023年4月8日
000
爬虫

玫瑰花变蚊子血,自动化无痕浏览器对比测试,新贵PlayWright Vs 老牌Selenium,基于Python3.10

也许每一个男子全都有过这样的两个女人，至少两个。娶了红玫瑰，久而久之，红的变了墙上的一抹蚊子血，白的还是床前明月光；娶了白玫瑰，白的便是衣服上沾的一粒饭黏子，红的却是心口上一颗朱砂痣。–张爱玲《红玫瑰与白玫瑰》 Selenium一直都是Python开源自动化浏览器工具的王者，但这两年微软开源的PlayWright异军突起，后来者居上，隐隐然有撼动Selen…

2023年4月8日
000
python爬虫爬取淘宝商品信息

python爬虫爬取淘宝商品信息背景淘宝是中国最大的网购平台之一，其商品数量多、种类丰富、价格优惠，吸引了大量消费者的关注和购买。然而，若要手动搜索、筛选商品，费时费力且效率低下，幸而Python爬虫技术可实现自动化搜索、爬取并筛选数据，代替人工劳动，提高购买效率。准备工作安装Python和Pip；安装Selenium、ChromeDriver和B…

python 2023年5月14日
000
Python探索之爬取电商售卖信息代码示例

我会为你详细讲解“Python探索之爬取电商售卖信息代码示例”的完整攻略。一、前置知识在开始学习“Python探索之爬取电商售卖信息代码示例”之前，我们需要掌握以下知识： Python基础语法，包括数据类型、控制语句、函数、模块、异常处理等。 HTTP协议基础知识，了解HTTP请求响应的基本流程，掌握常见的HTTP请求方法和状态码。网页结构基础知识，包…

python 2023年5月14日
000
python爬虫抓取哈尔滨天气信息（静态爬虫）

python 爬虫爬取哈尔滨天气信息 – http://www.weather.com.cn/weather/101050101.shtml 环境： windows7 python3.4（pip install requests；pip install BeautifulSoup4）代码：（亲测可以正确执行） 1 # coding:utf-8 2…

爬虫 2023年4月11日
000
猫眼100 爬虫

完整代码 import requests # 获取网页数据 import re # 正则表达式 from bs4 import BeautifulSoup # 网页解析，获取数据 import xlwt # 保存为excel findIndex = re.compile(r’board-index.*?>(\d+).*?’) findImage = r…

爬虫 2023年4月16日
000
XPath 爬虫解析库

XPath，全称 XML Path Language，即 XML 路径语言，它是一门在 XML 文档中查找信息的语言。最初是用来搜寻 XML 文档的，但同样适用于 HTML 文档的搜索。所以在做爬虫时完全可以使用 XPath 做相应的信息抽取。 1. XPath 概览 XPath 的选择功能十分强大，它提供了非常简洁明了的路径选择表达式。另外…

爬虫 2023年4月12日
000
python爬虫学习心得：中国大学排名(附代码)

今天下午花时间学习了python爬虫的中国大学排名实例，颇有心得，于是在博客园与各位分享 import requests from bs4 import BeautifulSoup import bs4 def getHTMLText(url): try: r = requests.get(url,timeout = 30) r.raise_for_stat…

爬虫 2023年4月11日
000

合作推广

合作推广

返回顶部