下面我将详细介绍“win7+Python3.5下scrapy的安装方法”。
1.安装Python3.5
首先,我们需要在电脑上安装Python3.5。你可以到Python的官网 https://www.python.org/downloads/release/python-350/ 下载Python3.5的安装包,并按照提示进行安装。
2.安装scrapy依赖的库
scrapy依赖于一些第三方库,我们需要先安装这些库。在命令行中执行以下代码,安装依赖库:
pip install Twisted
pip install pyOpenSSL
pip install Scrapy
3.安装Visual C++编译器
由于Scrapy使用了Twisted库,而Twisted库是用C语言编写的,因此在Windows系统上需要安装Visual C++编译器,否则在安装Twisted库时会出现错误。你可以在微软官网上下载Visual C++编译器安装包,地址为https://www.microsoft.com/en-us/download/details.aspx?id=44266。
4.测试scrapy
现在,我们已经成功安装了scrapy,我们可以先测试一下scrapy是否能正常工作。
在命令行中输入以下命令:
scrapy version
如果输出了当前scrapy的版本号,则说明scrapy已经正常安装并可以正常使用了。如果出现了错误,请重新检查前面的步骤是否有问题。
示例说明1
现在,我们可以尝试使用scrapy爬取一个网站的数据。以爬取豆瓣电影TOP250为例,我们可以在命令行中输入以下命令:
scrapy startproject douban
这条命令将新建一个名为“douban”的scrapy项目。进入项目目录,修改settings.py文件,设置USER_AGENT(浏览器标识)、ROBOTSTXT_OBEY(是否遵守robots.txt协议)等参数。新建一个名为“movies”的spider文件,在该文件中编写爬虫代码。爬虫代码完成后,可以在命令行中输入以下命令测试爬虫:
scrapy crawl movies
这条命令将调用名为“movies”的spider爬虫,开始爬取豆瓣电影TOP250数据。
示例说明2
还可以使用scrapy爬取其他类型的网站。以爬取京东商品信息为例,我们可以先打开一个商品的搜索结果页面,例如https://search.jd.com/Search?keyword=%E5%B0%8F%E7%B1%B3,打开浏览器的开发者工具,选择Network标签页,刷新页面,观察浏览器和服务器之间的通信情况。
可以发现,当我们在搜索框中输入搜索关键字时,浏览器向服务器发送了一个GET请求,该请求的URL为https://search.jd.com/Search?keyword=%E5%B0%8F%E7%B1%B3。该请求的结果是一个HTML页面,其中包含了多个商品的信息。
现在,我们可以在命令行中输入以下命令:
scrapy genspider jdsearch search.jd.com
这条命令将新建一个名为“jdsearch”的spider文件,并设置其起始URL为https://search.jd.com/Search。
进入spider文件,编辑spider代码。在该代码中,我们需要设置起始URL,以及解析每个搜索结果页面的方式。我们可以使用XPath或正则表达式来解析页面。当我们发现一个商品的信息时,可以使用Item Pipeline来保存该商品的数据。
最后,在命令行中输入以下命令测试爬虫:
scrapy crawl jdsearch
这条命令将调用名为“jdsearch”的spider爬虫,开始爬取京东商品信息。
本站文章如无特殊说明,均为本站原创,如若转载,请注明出处:win7+Python3.5下scrapy的安装方法 - Python技术站