python3+Scrapy爬虫使用pipeline数据保存到文本和数据库，数据少或者数据重复问题

2023年4月11日上午1:08 • 爬虫

爬取的数据结果是没有错的，但是在保存数据的时候出错了，出现重复数据或者数据少问题。那为什么会造成这种结果呢？

其原因是由于Spider的速率比较快，而scapy操作数据库操作比较慢，导致pipeline中的方法调用较慢，这样当一个变量正在处理的时候，一个新的变量过来，之前的变量的值就会被覆盖。

就比如pipline的速率是1TPS，而spider的速率是5TPS，那么数据库应该会有5条重复数据。

解决方案是对变量进行保存，在保存的变量进行操作，通过互斥确保变量不被修改。

下面将代码进行改造一下：

将 pipelines.py 中的 process_item 方法中的item改为深度拷贝，即

def process_item(self, item, spider):

copy_item = copy.deepcopy(item)

将下面的代码中item用copy_item替换

并在头部加载copy包

import copy

没有copy包的小伙伴可以在命令窗口进行下载

pip install copy

本站文章如无特殊说明，均为本站原创，如若转载，请注明出处：python3+Scrapy爬虫使用pipeline数据保存到文本和数据库，数据少或者数据重复问题 - Python技术站

赞 (0)

微信扫一扫

微信扫一扫

支付宝扫一扫

支付宝扫一扫

01_爬虫伪装成浏览器的四种方法

上一篇 2023年4月11日

python爬虫获取疫情信息并存入mysql数据库实践

下一篇 2023年4月11日

python3爬虫初探（四）之文件保存

　　接着上面的写，抓取到网址之后，我们要把图片保存到本地，这里有几种方法都是可以的。　　#—–urllib.request.urlretrieve—– 　　 import urllib.request imgurl = ‘http://img.ivsky.com/img/tupian/t/201411/01/xiaohuangren_tupia…

爬虫 2023年4月10日
000
使用Python实现简单的爬虫框架

下面我会详细讲解如何使用Python实现简单的爬虫框架，在整个过程中，我们将会遵循一个完整的攻略步骤来进行。这里分为以下几个部分来讲解：确定目标 & 安装必要的库首先，我们需要明确爬取的目标网站，并且选择一个适合的爬虫库。在Python中，比较常用的爬虫库有Requests和BeautifulSoup4。前者常用于发送HTTP请求并获得响应，后者…

python 2023年5月14日
000
python简单爬虫–get方式详解

Python简单爬虫——GET方式详解概述爬虫是一个广义的名词，涵盖了很多不同的技术。通常来说，爬虫是自动化获取网页数据的程序，被用于数据挖掘、搜索引擎、数据分析以及机器学习等领域。本文将介绍Python中的一种简单的爬虫技术——GET方式。爬虫原理 GET是HTTP协议中常用的一种请求方式，通常用于获取或查询资源。当我们在浏览器中输入一个URL时，浏…

python 2023年5月14日
000
当当网爬虫

当当网爬虫利用python的requests 库和lxml库，来爬取当当网的图书信息，包括图书名称，图书购买页面url和图书价格，本次以爬取python书籍为例 1、确定url地址进入当当网，搜索python书籍，得到如下所以可以知道，当你搜索书籍时，书籍的名字会放在key的后面 2、获取地址后，就发送请求获取数据，再返回element对象 3、在Ch…

爬虫 2023年4月12日
000
python3.7简单的爬虫实例详解

下面是对“python3.7简单的爬虫实例详解”的完整攻略： python3.7简单的爬虫实例详解概述在本文中，我们将使用Python 3.7来编写一个简单的爬虫程序，用于从网站上获取信息。该程序需要做到以下几点：从指定的URL页面获取HTML源代码。分析HTML源代码，提取所需的信息。将所需的信息保存到本地文件中。这个程序的实现，需要用到以下几…

python 2023年5月14日
000
用Python爬虫爬取“女神吧”上的照片。

爬取的网页链接为https://tieba.baidu.com/p/5177270774 是一个美女警花哦！所用Python环境为：python 3.3.2 用到的库为：urllib.request re 下面上代码： import urllib.request import re #获得url的html 源码格式，其中使用了一个通过修改Us…

爬虫 2023年4月10日
000
Python爬虫信息输入及页面的切换方法

当进行Python爬虫时，我们需要在网页上进行信息输入，同时还需要能够自动切换到不同的页面来获取更多的信息。在本文中，我们将详细讲解Python爬虫信息输入以及页面切换的方法，帮助你完成你的爬虫任务。基本知识在开始之前，我们需要了解一些基本的知识： requests 模块：可以进行网页数据的请求和响应。 BeautifulSoup 模块：可以进行网页数据…

python 2023年5月14日
000
简单实现Python爬取网络图片

下面是“简单实现Python爬取网络图片”的完整攻略：准备工作首先需要安装好Python，并在命令行中用以下命令安装好所需的第三方库： pip install requests # 用于发送HTTP请求 pip install beautifulsoup4 # 用于解析HTML文档步骤 1. 获取要爬取的页面爬取网络图片的第一步是获取要爬取的页面，可…

python 2023年5月14日
000

合作推广

合作推广

返回顶部