下面给出在windows10系统中安装Python3.x和Scrapy的完整攻略：

安装Python3.x

下载Python3.x安装包

首先，我们需要去Python官网下载最新的Python3.x安装包，网址是 https://www.python.org/downloads/ 。建议选择最新的稳定版，即左侧的Download Python 3.x.x按钮。

运行安装包

下载完成后，运行安装包。在安装过程中有一步需要注意，即在Customize Python 3.x页面上，记得勾选Add Python 3.x to PATH选项，这样才能在命令行中直接使用Python和pip命令。其余步骤按照默认选项即可完成安装。

验证安装是否成功

打开命令行（Win+R，输入cmd），输入以下命令：

python --version

如果命令行返回Python的版本号，说明Python安装成功。

安装Scrapy

安装Microsoft Visual C++

Scrapy的部分依赖需要Microsoft Visual C++支持，如果没有安装此软件，可以从官网 https://visualstudio.microsoft.com/zh-hans/vs/community/ 下载并安装。

安装Twisted

Scrapy依赖Twisted库，可以使用pip命令进行安装，在命令行中输入以下命令：

pip install twisted

安装Scrapy

使用pip命令进行安装，在命令行中输入以下命令：

pip install scrapy

验证安装是否成功

在命令行中输入以下命令：

scrapy version

如果命令行返回Scrapy的版本号，说明Scrapy安装成功。

示例说明

小说爬虫

假设我们想要爬取某个小说网站的全部小说信息，包括小说标题、作者、封面图片、分类等。

首先，我们新建一个Scrapy项目，使用命令行进入某个目录，然后输入以下命令：

scrapy startproject novel_spider

这样就会在当前目录下创建一个名为novel_spider的Scrapy项目。

接着，我们可以使用Scrapy中的Spider模板来编写爬虫程序。在novel_spider/spiders目录下创建一个名为novel_spider.py的文件，然后输入以下代码：

```
import scrapy
from novel_spider.items import NovelSpiderItem

class NovelSpider(scrapy.Spider):
name = "novel"
start_urls = [
"https://www.example.com/novels",
]

   def parse(self, response):
       # 解析小说列表页
       novel_list = response.css(".novel-list li")
       for novel in novel_list:
           # 解析每本小说的信息
           item = NovelSpiderItem()
           item["title"] = novel.css("h2 a::text").extract_first()
           item["author"] = novel.css(".author::text").extract_first()
           item["cover_url"] = novel.css(".cover img::attr(src)").extract_first()
           item["category"] = novel.css(".category::text").extract_first()
           yield item

```

这个爬虫程序会爬取https://www.example.com/novels网站上的小说信息，将其保存到一个名为NovelSpiderItem的自定义Item中。

最后，在命令行中进入novel_spider目录，输入以下命令：

scrapy crawl novel -o novel.csv

这样会运行我们刚刚编写的novel爬虫程序，并将爬取到的小说信息保存到名为novel.csv的文件中。

豆瓣电影爬虫

现在我们想要爬取豆瓣电影的电影信息，包括电影名称、导演、演员、评分等。

首先，我们需要找到豆瓣电影的API接口。可以在豆瓣官网上找到API文档（https://developers.douban.com/wiki/?title=movie_v2），其中列出了电影信息的API接口。

下面是一个使用Scrapy爬取豆瓣电影信息的爬虫程序。在需要的信息处注明了API接口名称：

```
import scrapy
from douban_movie.items import DoubanMovieItem

class DoubanMovieSpider(scrapy.Spider):
name = "douban_movie"
start_urls = [
"https://api.douban.com/v2/movie/top250",
]

   def parse(self, response):
       # 解析电影列表页
       movie_list = response.json()["subjects"]
       for movie in movie_list:
           # 解析每个电影的信息
           item = DoubanMovieItem()
           item["title"] = movie["title"]
           item["director"] = movie["directors"][0]["name"]
           item["cast"] = ",".join([c["name"] for c in movie["casts"]])
           item["rating"] = movie["rating"]["average"]
           yield item

       # 翻页处理
       next_url = response.json()["next"]
       if next_url:
           yield scrapy.Request(next_url, callback=self.parse)

```

最后，在命令行中进入douban_movie目录，输入以下命令：

scrapy crawl douban_movie -o douban_movie.csv

这样会运行我们刚刚编写的douban_movie爬虫程序，并将爬取到的电影信息保存到名为douban_movie.csv的文件中。

以上就是在Windows10系统中安装Python3.x和Scrapy的完整攻略，希望对你有所帮助。

本站文章如无特殊说明，均为本站原创，如若转载，请注明出处：windows10系统中安装python3.x+scrapy教程 - Python技术站

windows10系统中安装python3.x+scrapy教程

安装Python3.x

安装Scrapy

示例说明

相关文章