一开始我们默认都是只有一个爬虫的,所以执行的代码都是在项目下创建一个py文件
from scrapy import cmdline
cmdline.execute('scrapy crawl 爬虫名'.split( ))
但是要执行多个爬虫就犯难了,在这里我只是做个笔记加强记忆
原博客 https://www.cnblogs.com/lei0213/p/7900340.html
其中执行以下:
1、在spiders同级创建任意目录,如:commands
2、在其中创建 crawlall.py 文件 (此处文件名就是自定义的命令)
crawlall.py
from scrapy.commands import ScrapyCommand from scrapy.utils.project import get_project_settings class Command(ScrapyCommand): requires_project = True def syntax(self): return '[options]' def short_desc(self): return 'Runs all of the spiders' def run(self, args, opts): spider_list = self.crawler_process.spiders.list() for name in spider_list: self.crawler_process.crawl(name, **opts.__dict__) self.crawler_process.start()
到这里还没完,settings.py配置文件还需要加一条。
COMMANDS_MODULE = ‘项目名称.目录名称’
项目名 目录名称 COMMANDS_MODULE = 'zhihuuser.commands'
这就是几乎完成了,如果需要执行,那么只要在cmd中cd进项目中scrapy crawlall,或者项目下新建一个py文件使用scrapy.cmdline运行, 或者 os.system('scrapy crawlall')
本站文章如无特殊说明,均为本站原创,如若转载,请注明出处:scrapy 执行同个项目多个爬虫 - Python技术站