三十二 Python分布式爬虫打造搜索引擎Scrapy精讲—scrapy的暂停与重启

2023年4月13日上午2:01 • 爬虫

scrapy的每一个爬虫，暂停时可以记录暂停状态以及爬取了哪些url，重启时可以从暂停状态开始爬取过的URL不在爬取

实现暂停与重启记录状态

1、首先cd进入到scrapy项目里

2、在scrapy项目里创建保存记录信息的文件夹

3、执行命令：

　　scrapy crawl 爬虫名称 -s JOBDIR=保存记录信息的路径

　　如：scrapy crawl cnblogs -s JOBDIR=zant/001

　　执行命令会启动指定爬虫，并且记录状态到指定目录

爬虫已经启动，我们可以按键盘上的ctrl+c停止爬虫

停止后我们看一下记录文件夹，会多出3个文件

其中的requests.queue文件夹里的p0文件就是URL记录文件，这个文件存在就说明还有未完成的URL，当所有URL完成后会自动删除此文件

当我们重新执行命令：scrapy crawl cnblogs -s JOBDIR=zant/001 时爬虫会根据p0文件从停止的地方开始继续爬取，

本站文章如无特殊说明，均为本站原创，如若转载，请注明出处：三十二 Python分布式爬虫打造搜索引擎Scrapy精讲—scrapy的暂停与重启 - Python技术站

赞 (0)

微信扫一扫

微信扫一扫

支付宝扫一扫

支付宝扫一扫

二十九 Python分布式爬虫打造搜索引擎Scrapy精讲—selenium模块是一个python操作浏览器软件的一个模块，可以实现js动态网页请求

上一篇 2023年4月13日

二十六 Python分布式爬虫打造搜索引擎Scrapy精讲—通过downloadmiddleware中间件全局随机更换user-agent浏览器用户代理

下一篇 2023年4月13日

python分布式爬虫打造搜索引擎——–scrapy实现

http://www.cnblogs.com/jinxiao-pu/p/6706319.html 最近在网上学习一门关于scrapy爬虫的课程，觉得还不错，以下是目录还在更新中，我觉得有必要好好的做下笔记，研究研究。第1章课程介绍 1-1 python分布式爬虫打造搜索引擎简介 07:23 第2章 windows下搭建开发环境 2-1 pychar…

爬虫 2023年4月8日
000
python异步爬虫之多线程

Python异步爬虫之多线程攻略异步爬虫可以提高爬虫的效率，将爬虫的速度提升到一个新的水平。而在异步爬虫中，多线程是一种非常实用的技术。在本文中，我们将详细讲解如何通过多线程的方式来实现 Python 异步爬虫。什么是多线程多线程是指在一个程序中同时运行多个线程，每个线程都可以执行不同的代码。多线程可以提高程序的效率，因为多个线程能够同时执行，从而减少…

python 2023年5月14日
000
python爬虫（十三） lxml模块

lxml是一个HTML/XML的解析库，主要功能是如何解析和提取HTML/XML数据 lxml和正则一样，是用c实现的，我们可以用XPath语法，来快速的定位特定元素以及节点信息。需要用到pip。使用： 1、解析一段html的字符串 from lxml import etree text=””” # 一段html代码 “”” htmlElement=etr…

爬虫 2023年4月11日
000
Atitit 业务领域体系分类目录 1. 按照互联网企业类型以及只是体系类的分类 2 2. 电子商务 2 3. **通信类社交 Im类 em 2 4. **信息搜索类爬虫 2 4.1. 媒体

Atitit 业务领域体系分类目录 1. 按照互联网企业类型以及只是体系类的分类 2 2. 电子商务 2 3. **通信类社交 Im类 em 2 4. **信息搜索类爬虫 2 4.1. 媒体 2 5. **娱乐类 2 5.1. 视频游戏菠菜 2 6. **金融支付 2 7. 政务类 2 8. O2o 3 8.1. 共享单车外卖 3 9. O…

爬虫 2023年4月16日
000
Python爬虫和反爬技术过程详解

Python爬虫和反爬技术过程详解 1. 爬虫过程 1.1 网页请求在Python中，我们可以使用第三方库如requests、urllib等发起网页请求，获取目标网页的HTML源代码。通过requests库发起文本形式的GET请求方法可以获得目标网站的的HTML页面，如下例所示： import requests response = requests.ge…

python 2023年5月14日
000
爬虫

【Python爬虫学习（1）】BeautifulSoup库的使用

一、BeautifulSoup库简介 BeautifulSoup是一个灵活方便的网页解析库，处理搞笑，支持多种解析器。利用它可以不用编写正则表达式就可以方便的实现网页信息的抓取。 BeautifulSoup是爬虫必学技能，其最主要的功能是从网页抓取数据。BeautifulSoup自动的将输入文档转换为Unicode编码，输出文档转换为utf-8编码。Beau…

2023年4月11日
000
python3 requests库实现多图片爬取教程

标题 Python3 requests库实现多图片爬取教程介绍爬虫是一种抓取网站数据的技术，对于需要大量数据的场景非常有用。在爬取网站数据时，经常需要获取并保存网页上的图片数据。本教程将介绍使用Python3中的requests库实现多图片爬取的方法，帮助学习者了解Python3 requests库的基本用法。步骤导入requests库和os库 py…

python 2023年5月14日
000
PYTHON 爬虫笔记七:Selenium库基础用法

什么是Selenium 　　　　selenium 是一套完整的web应用程序测试系统，包含了测试的录制（selenium IDE）,编写及运行（Selenium Remote Control）和测试的并行处理（Selenium Grid）。　　　　　　selenium的核心Selenium Core基于JsUnit，完全由JavaScript编写，因此可以…

爬虫 2023年4月11日
000

合作推广

合作推广

返回顶部