scrapy工具创建爬虫工程

2023年4月8日下午5:37 • 爬虫

1、scrapy创建爬虫工程：scrapy startproject scrape_project_name

>scrapy startproject books_scrape
New Scrapy project 'books_scrape', using template directory 's:\\users\\jiangshan\\anaconda3\\lib\\site-packages\\scrapy\\templates\\project', created in:
D:\Workspace\ScrapyTest\books_scrape

You can start your first spider with:
cd books_scrape
scrapy genspider example example.com

2、>cd books_scrape

3、查看目录结构：>tree /F

>tree /F
卷 DATA1 的文件夹 PATH 列表
卷序列号为 3A2E-EB05
D:.
│ scrapy.cfg
│
└─books_scrape
│ items.py
│ middlewares.py
│ pipelines.py
│ settings.py
│ __init__.py
│
├─spiders
│ │ __init__.py
│ │
│ └─__pycache__
└─__pycache__

4、使用scrapy genspider<SPIDER_NAME> <DOMAIN> 命令生成（根据模板）和创建Spider文件以及Spider类，该命令的两个参数分别是Spider的名字和所要爬取的域（网站）。

> scrapy genspider books books.toscrape.com

5、查看目录结构：（标蓝色先不管，因为本人使用远程服务器调试）

>tree /F

D:.
│ scrapy.cfg
│
└─books_scrape
│ items.py
│ middlewares.py
│ pipelines.py
│ run.py
│ settings.py
│ __init__.py
│
├─.idea
│ books_scrape.iml
│ deployment.xml
│ misc.xml
│ modules.xml
│ remote-mappings.xml
│ workspace.xml
│
├─spiders
│ │ books.py
│ │ __init__.py
│ │
│ └─__pycache__
│ __init__.cpython-37.pyc
│
└─__pycache__
settings.cpython-37.pyc
__init__.cpython-37.pyc

6、打开pycharm软件，打开创建的books_scrape工程，以配置文件scrapy.cfg为基准

7、在和├─spiders同级目录新建，run.py文件，写入：

from scrapy import cmdline

cmdline.execute('scrapy crawl books'.split())

或

cmdline.execute('scrapy crawl books -o %(name)s%(time)s.csv'.split())

或

cmdline.execute('scrapy crawl books -o books.csv'.split())

或
cmdline.execute('scrapy crawl books -o books.xml'.split())

本站文章如无特殊说明，均为本站原创，如若转载，请注明出处：scrapy工具创建爬虫工程 - Python技术站

赞 (0)

微信扫一扫

微信扫一扫

支付宝扫一扫

支付宝扫一扫

使用Nginx过滤网络爬虫

上一篇 2023年4月8日

一篇文章教会你利用Python网络爬虫抓取百度贴吧评论区图片和视频

下一篇 2023年4月8日

爬虫再探实战（一）——爬取智联招聘职位信息

　　本人呢，算是学统计的，就想着爬一下智联的统计岗位信息，嗯，岗位很强势。。。　　这里用了requests,bs4进行抓取与解析，数据存入mysql数据库。代码比较乱，先凑和着看，有时间再整理吧。。。 import requests from bs4 import BeautifulSoup import re import time import dat…

爬虫 2023年4月10日
000
python3爬虫初探（四）之文件保存

　　接着上面的写，抓取到网址之后，我们要把图片保存到本地，这里有几种方法都是可以的。　　#—–urllib.request.urlretrieve—– 　　 import urllib.request imgurl = ‘http://img.ivsky.com/img/tupian/t/201411/01/xiaohuangren_tupia…

爬虫 2023年4月10日
000
Python爬虫爬取新闻资讯案例详解

Python爬虫爬取新闻资讯案例详解 Python爬虫可以用来获取互联网上的各种数据，包括新闻资讯。本文将详细讲解如何使用Python爬虫爬取新闻资讯，并提供两个示例说明。 1. 确定目标新闻网站首先要明确需要爬取的新闻资讯网站，比较常见的包括新浪、腾讯、网易等。不同的网站可能需要不同的爬虫策略，需要针对具体情况进行选择。 2. 分析网站结构在确定了目标…

python 2023年5月14日
001
Python爬虫lxml解析实战

XPath常用规则 / 从当前节点选取直接子节点 // 从当前节点选取子孙节点 . 选取当前节点 .. 选取当前节点的父节点 @ 选取属性 * 通配符，选择所有元素节点与元素名 @* 选取所有属性 [@attrib] 选取具有给定属性的所有元素 [@attrib=’value’] 选取给定属性具有给定值的所有元素 [tag] 选取所有具有指定元素的直接子节点…

爬虫 2023年4月11日
000
python 写的一个爬虫程序源码

Python编写爬虫程序攻略什么是爬虫程序？爬虫程序是通过网络爬取互联网上的信息和数据，并将它们转换成结构化数据的程序。结构化数据可以被用于数据分析、数据挖掘、机器学习等应用领域。 Python编写爬虫程序 Python是编写爬虫程序非常流行的语言，它有许多流行的爬虫框架，例如Scrapy、BeautifulSoup、Requests等。爬取网站数据 …

python 2023年5月14日
000
Python 爬虫实战（一）：使用 requests 和 BeautifulSoup

我之前写的《Python 3 极简教程.pdf》，适合有点编程基础的快速入门，通过该系列文章学习，能够独立完成接口的编写，写写小东西没问题。 requests requests，Python HTTP 请求库，相当于 Android 的 Retrofit，它的功能包括 Keep-Alive 和连接池、Cookie 持久化、内容自动解压、HTTP 代理、SSL…

爬虫 2023年4月10日
000
04 Python网络爬虫 <<爬取get/post请求的页面数据>>之requests模块

一. urllib库　　urllib是Python自带的一个用于爬虫的库,其主要作用就是可以通过代码模拟浏览器发送请求。其常被用到的子模块在Python3中的为urllib.request和urllib.parse，在Python2中就是urllib和urllib2。二.requests库　　- 安装: pip install requests 　　-…

爬虫 2023年4月8日
000
爬虫（四）-大众点评，css+svg

地址：http://www.dianping.com/shop/9964442 好多字没了，替代的是<x class=”xxx”></x>这种css标签定位到位置找到文字 SVG svg可以写字，xy是相对svg标签的坐标，单位px textPath 用xlink:href标记文字路径，就是文字排列方向，文字按方…

爬虫 2023年4月11日
000

合作推广

合作推广

返回顶部