Scrapy爬虫框架快速入门

2023年4月8日下午4:49 • 爬虫

安装scrapy

pip install scrapy -i https://pypi.douban.com/simple/

安装过程可能遇到的问题

版本问题导致一些辅助库没有安装好，需要手动下载并安装一个辅助库Twisted
运行时候：ModuleNotFoundError: No module named 'attrs'
pip install attrs --upgrade
运行时候：Loading "scrapy.core.downloader.handlers.http.HTTPDownload Handler" for scheme "https"
pip install pywin32

创建项目

CMD进入需要创建项目的目录下，输入命令

scrapy startproject ×××

Scrapy爬虫框架快速入门

命令基本不需要死记硬背，正如下图所示，会告诉你接下来需要输入的命令

Scrapy爬虫框架快速入门

设置实体文件（建立要获取的字段）

Scrapy爬虫框架快速入门

这个文件内会写入后续需要爬取的字段，scrapy.Field()就是变量存储区域，通过“spiders”里的爬虫文件获取的内容都会存储在此处设置的区域里。

然后以实体文件作为中转站，将这些变量传输到其他文件中，例如，传输到管道文件中进行数据存储等处理。设置完实体文件，就可以在实战中应用刚才创建的变量了。

修改设置文件（设置Robots协议和User-Agent，激活管道文件）

运行爬取文件可能会遇到DEBUG：Forbidden by robots txt 说明百度的Robots协议禁止Scrapy框架直接爬取。

解决这个问题可以通过设置文件20行左右的位置把OBEY置为False

Scrapy爬虫框架快速入门

设置User-Agent同样在设置文件40行左右位置，添加一行User-Agent

Scrapy爬虫框架快速入门

要进行数据的爬后处理，即将数据写入数据库或文件等后续操作。所以先要激活管道

后面的数字只是排序的顺序，越小越靠前

如果管道文件有新增类名，就需要在这里添加

Scrapy爬虫框架快速入门

在文件夹“spiders”中编写爬虫逻辑（核心爬虫代码）

Scrapy爬虫框架快速入门

第10 行start_urls是一个列表存放需要爬取的url，如果需要爬取多个地址（例如存在ajex动态页面爬取），可以往这个start_urls列表中append多个地址

爬虫代码基本都在parse中

第13行实例化items，就是实例化需要提取的字段

后面几行都是基本的爬虫代码这里就解释了，需要说一下的是response.text才是网页源代码

Scrapy爬虫框架快速入门

注：除了常见的用正则表达式提取，还有一个库比较常见就是Beautifulsoup

设置管道文件（爬后处理）

爬取后需要存入文件或者下载文件

这里需要说一下，第15行和第24行去判断spider.name是为了在运行的时候进行区分。

当然写管道的时候，可以把所有处理方式写在一个类中，通过spider.name去进行区分，也可以像下图一样用不同的类去写。但如果是不同的类就需要到设置文件中把新增类添加到设置中去。

第26行urlretrieve()函数是用来下载图片

Scrapy爬虫框架快速入门

最后运行

最后在命令行输入

scrapy crawl ****

本站文章如无特殊说明，均为本站原创，如若转载，请注明出处：Scrapy爬虫框架快速入门 - Python技术站

赞 (0)

微信扫一扫

微信扫一扫

支付宝扫一扫

支付宝扫一扫

C#网络爬虫开发

上一篇 2023年4月8日下午4:49

C#爬虫开发小结

下一篇 2023年4月8日

python 学习之爬虫练习

通过学习python，写两个简单的爬虫，没用线程，本地抓取速度还不错，有些瑕疵就是抓的图片有些显示不出来，代码做个笔记记录下： # -*- coding:utf-8 -*- import re import urllib.request import os url = “http://www.58pic.com/yuanchuang/0/day-” def …

爬虫 2023年4月13日
000
Python爬虫获取整个站点中的所有外部链接代码示例

首先明确一下，Python爬虫获取整个站点中的所有外部链接可以分为以下几个步骤：请求目标站点的首页，获取html代码解析html代码，找到所有外部链接对于每一个外部链接，判断是否合法，是否已经被爬取过如果链接合法且未爬取过，则继续爬取该链接，并重复步骤1-3 下面通过两个示例来详细讲解：示例1: 使用python中的 requests 和 Beau…

python 2023年5月14日
000
爬虫示例

import requests class MyRequests: # 初始化方法 def __init__(self): # 请求头 self.headers = {“X-Lemonban-Media-Type”: “lemonban.v2”} # 属性 # 方法 post/put.. json=XXX , get.. params=XXX def s…

爬虫 2023年4月12日
000
关于python爬虫的编码错误

现在才发现很多错误只有自己一点点的去尝试才能发现。不管之前别人怎么和你说，总是不可能面面俱到，所以提升自己的方法就是亲手实践，自己一点点的去发现问题，并一个个的解决。慢慢享受其中无言的快感。今天就发现了一个：运行爬虫时出现了这个错误： UnicodeEncodeError: ‘ascii’ codec can’t encode character u’…

爬虫 2023年4月16日
001
python + selenium 爬虫模拟登录破解无原图滑动验证码

爬虫模拟登录破解无原图滑动验证码： https://www.cnblogs.com/98WDJ/p/11050559.html 需求：部分网站在频繁的使用之后，会弹出滑块验证码（极验）。有别于过去，现在的原图并不会出现，因此较过去的思路转变为以下： 1、截取带缺口的图片； 2、寻找原图，并截图； 3、比较两张图片，寻找到缺口位置距离； 4、计算运动过程，并驱…

爬虫 2023年4月11日
000
基于Python3制作一个带GUI界面的小说爬虫工具

下面是关于“基于Python3制作一个带GUI界面的小说爬虫工具”的完整攻略： 1. 准备工作在开始制作小说爬虫工具之前，需要先完成以下一些准备工作： 1.1 安装Python Python是一款非常强大的编程语言，在这里我们需要使用Python来编写我们的小说爬虫工具。在安装Python的过程中，建议下载Python3.x版本。在安装Python之前，可…

python 2023年5月14日
000
[爬虫学习笔记]C# 使用 ScrapySharp 并行下载天涯图片

最近因为一个作业需要完成CNKI爬虫，研究爬虫架构的时候发现了这个疑似移植于Python的著名开源爬虫框架Scrapy的ScrapySharp，然而在网上寻找之后只发现了这个F#的Demo，就使用原文中示例的网站写了这个C#版本的代码。 PS:研究之后发现，ScrapySharp和Scrapy差距还是挺大的，没有Scrapy那样完…

爬虫 2023年4月10日
000
python爬虫爬取淘宝商品信息（selenum+phontomjs）

Python爬虫爬取淘宝商品信息攻略为了爬取淘宝上的商品信息，我们可以使用Python编写爬虫。本攻略将讲解如何使用Selenium和PhantomJS来模拟人类在浏览器中的行为，从而爬取淘宝的商品信息。安装Selenium和PhantomJS Selenium是一个自动化测试框架，可以用来驱动各种浏览器来模拟用户的行为。PhantomJS是一个基于We…

python 2023年5月14日
000

合作推广

合作推广

返回顶部