python scrapy爬虫存储数据库方法带去重步骤

2023年4月11日上午12:53 • 爬虫

import pymongo
import requests
import random
import time
import pymysql

db = pymongo.MongoClient()['cs']['dn']
db1 = pymysql.connect(user='root',password='root',db='cs',charset='utf8')
cursor = db1.cursor()

class CsdnPipeline(object):
    def __init__(self):
        self.set = set()
    def process_item(self, item, spider):
        if item not in self.set:
            title = item['title']
            content_text = item['content_text']
            create_time_datetime = item['create_time_datetime']
            nickName = item['nickName']
            read_count = item['read_count']
            content_img = item['content_img']
            keyword = item['keyword']
            if len(content_img)>0:
                path = []
                for img in content_img:
                    img_name = 'F:\\34\\tu\\'+str(time.time()).split('.')[1]+str(random.randrange(1,9999999999999999999999999))+'.jpg'
                    img_source = requests.get(img).content
                    op = open(img_name,'wb')
                    op.write(img_source)
                    op.close()
                    path.append(img_name)
                item['content_img'] = path

            else:
                item['content_img'] = '暂无图片'
            db.insert(dict(item))
            import json
            data = json.dumps(dict(item))
            sql = "insert into dn1(`data`) VALUES ('{}')".format(data)
            cursor.execute(sql)
            db1.commit()
            self.set.add(item)
            return item
        else:
            print('已经存在')
            return item

本站文章如无特殊说明，均为本站原创，如若转载，请注明出处：python scrapy爬虫存储数据库方法带去重步骤 - Python技术站

赞 (0)

微信扫一扫

微信扫一扫

支付宝扫一扫

支付宝扫一扫

爬虫笔记(四)——关于BeautifulSoup4解析器与编码

上一篇 2023年4月11日

Python 开发简单爬虫 – 基础框架

下一篇 2023年4月11日

Python 通过requests实现腾讯新闻抓取爬虫的方法

Python 通过requests实现腾讯新闻抓取爬虫的方法介绍 Python是一种非常常用的编程语言，requests模块是Python的一个第三方库，可用于发送HTTP请求。这篇文章将会介绍如何使用这个库实现腾讯新闻的爬取。步骤导入requests库在Python中，想要使用requests库，需要先安装并导入这个库。可以执行以下命令来完成导入：…

python 2023年5月14日
000
部署scrapy爬虫

pip install scrapyd 1、新建文件夹，用来放之后的项目文件在部署的项目文件夹里开启一个服务 cmd管理员运行: spiderd 默认的访问地址是 http://localhost:6800/ 如果启动成功，可以看到jobs里面的表格内容即是要部署上去的scrapy服务,现在还没部署 2、项目目录里，cmd输入 scr…

爬虫 2023年4月11日
000
爬虫

二十八 Python分布式爬虫打造搜索引擎Scrapy精讲—cookie禁用、自动限速、自定义spider的settings，对抗反爬机制

cookie禁用就是在Scrapy的配置文件settings.py里禁用掉cookie禁用，可以防止被通过cookie禁用识别到是爬虫，注意，只适用于不需要登录的网页，cookie禁用后是无法登录的 settings.py里禁用掉cookie禁用 COOKIES_ENABLED = False 禁用cookie # Disable cookies (ena…

2023年4月13日
000
如何使用BeautifulSoup解析数据？

使用BeautifulSoup解析数据是Python爬虫中非常常用的一项技能。它简单易用，可以快速地帮助我们从HTML或XML文档中提取想要的数据。下面是使用BeautifulSoup解析数据的完整攻略，包括一些示例说明。 1. 安装和导入BeautifulSoup 首先，我们需要安装BeautifulSoup库。可以使用如下命令安装： pip instal…

爬虫 2023年4月20日
000
python + selenium 爬虫模拟登录破解无原图滑动验证码

爬虫模拟登录破解无原图滑动验证码： https://www.cnblogs.com/98WDJ/p/11050559.html 需求：部分网站在频繁的使用之后，会弹出滑块验证码（极验）。有别于过去，现在的原图并不会出现，因此较过去的思路转变为以下： 1、截取带缺口的图片； 2、寻找原图，并截图； 3、比较两张图片，寻找到缺口位置距离； 4、计算运动过程，并驱…

爬虫 2023年4月11日
000
Python爬虫入门教程：爬取boss直聘招聘数据并做可视化展示

本文的文字及图片来源于网络,仅供学习、交流使用,不具有任何商业用途,如有问题请及时联系我们以作处理。基本开发环境 Python 3.8 Pycharm 相关模块的使用 from selenium import webdriver import csv 安装Python并添加到环境变量，pip安装需要的相关模块即可。如图所示，通过 Py…

爬虫 2023年4月11日
000
爬虫

python爬虫 — 浏览器的抓包编码可以绝对信任吗

前言本次也是记录一个偶然发现的小问题，有关js逆向和app逆向的系列文章，放一放，有空再系统的整理成文发布了。这个问题就很骚了，废话不多说，直接情景再现目标网站：aHR0cHM6Ly93d3cubW5kLmdvdi50dy9QdWJsaXNoTVBCb29rLmFzcHg/JnRpdGxlPSVFOCVCQiU4RCVFNCVCQSU4Qi…

2023年4月13日
000
二十七 Python分布式爬虫打造搜索引擎Scrapy精讲—通过自定义中间件全局随机更换代理IP

设置代理ip只需要，自定义一个中间件，重写process_request方法， request.meta[‘proxy’] = “http://185.82.203.146:1080” 设置代理IP 中间件，注意将中间件注册到配置文件里去 from adc.daili_ip.sh_yong_ip.sh_yong_ip import sui_ji_hq_i…

爬虫 2023年4月13日
000

合作推广

合作推广

返回顶部