Scrapy框架Crawler模板爬虫

2023年4月11日下午10:15 • 爬虫

1、创建一个CrawlerSpider

scrapy genspider -t crawl wx_spider 'wxapp-union.com'
#导入规则
from scrapy.spiders import Rule,CrawlSpider
from scrapy.linkextractors import LinkExtractor

2、Rule规则

class scrapy.spiders.Rule(
    link_extractor,#一个LinkExtractor对象，用于定义爬取规则
    callback，#满足这个规则的url执行的回调函数 【注意】：不要使用parse函数，因为Crawlspider征用了
    follow,#指定根据该规则从response又提取出类似链接要不要继续跟进, 默认为True
    process_link，#从link_extractor中获取到的链接会传递给这个函数，用于过滤不需要爬取的链接
)

3、LinkExtractor提取器

class scrapy.linkextractors.LinkExtractor(
    allow=(),#允许的url，满足这个正则表达式的url都会被提取
    deny=(),#不允许的url
    allow_domains=(),#允许的域名
    deny_domains=(),#禁止的域名
    restrict_xpaths=(),#严格的xpath，与allow共同过滤 
    unique=True/False，#链接是否去重 
)

示例（抓取微信小程序社区）

class WxSpiderSpider(CrawlSpider):
    name = 'wx_spider'
    allowed_domains = ['wxapp-union.com']
    start_urls = ['http://www.wxapp-union.com/portal.php?mod=list&catid=2&page=1']

    rules = (
        Rule(LinkExtractor(allow=r'.+mod=list&catid=2&page=\d'), follow=True),#定义页面抓取规则，这里允许跟进
        Rule(LinkExtractor(allow=r'.+/article-.+\.html'),callback = "parse_detail_page", follow=False)#定义内容抓取规则，这里不允许跟进，也就是内容页上的类似链接不跟进
    )

    def parse_detail_page(self, response):
        title = response.xpath('//h1[@class="ph"]/text()').get()
        content =response.xpath('//td[@]//text()').getall()
        content = ''.join(content)
        author_p = response.xpath('//p[@class="authors"]')
        author=author_p.xpath('.//a/text()').get()
        pub_time=author_p.xpath('.//span/text()').get()
        yield WxappItem(title=title,author=author,pub_time=pub_time,content=content)

本站文章如无特殊说明，均为本站原创，如若转载，请注明出处：Scrapy框架Crawler模板爬虫 - Python技术站

赞 (0)

微信扫一扫

微信扫一扫

支付宝扫一扫

支付宝扫一扫

python爬虫数据采集ip被封一篇解决

上一篇 2023年4月11日

python简单爬虫使用pandas解析表格,不规则表格

下一篇 2023年4月11日

Python Scrapy框架：通用爬虫之CrawlSpider用法简单示例

Python是一种广泛使用的高级语言，Scrapy是一个基于Python的网络爬虫框架，可以用于从网站上爬取数据。这个攻略将介绍Scrapy框架的CrawlSpider模块，提供一个通用的爬虫实现，可以根据用户的需求，定制特定的数据爬虫。设置Scrapy环境首先，我们需要设置Scrapy环境，并确保安装了Scrapy插件。在命令行中使用以下命令安装Scr…

python 2023年5月14日
000
煎蛋网妹子图爬虫总结

这次是只用字符串查找的方式来找网页中图片链接的 1 #!/usr/bin/python 2 #coding:utf-8 3 import urllib.request 4 import os 5 import time 6 import random 7 8 def url_open(url): 9 # header = {} 10 # header[‘Us…

爬虫 2023年4月10日
000
爬虫防封IP

当抓取数据逐渐增大时，服务器的负荷会加大，会直接封掉来访IP：采取措施：　　1.创建请求头部信息：　　 headers = {‘User-Agent’: ‘Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/70.0.3538.9 Safa…

爬虫 2023年4月11日
000
python+爬虫+签名

在公众号，看到一个比较好玩的程序。它使用post的来传送请求，以前没有遇到过。可能是自己，写的程序太少了。查了一下post的用法：通常，你想要发送一些编码为表单形式的数据——非常像一个 HTML 表单。要实现这个，只需简单地传递一个字典给 data 参数。你的数据字典在发出请求时会自动编码为表单形式： 1 >>> payload…

爬虫 2023年4月10日
000
爬虫笔记(十三)——lxml库的使用

HTML示例代码： text = ”’ <div> <ul> <li class=”item-0″><a href=”link1.html”>first item</a></li> <li class=”item-1″><a href=”link2.html”>…

爬虫 2023年4月11日
000
python使用XPath解析数据爬取起点小说网数据

下面是详细讲解“python使用XPath解析数据爬取起点小说网数据”的完整攻略：第一步：安装必要的库使用XPath解析数据需要安装lxml库。 pip install lxml 第二步：发送请求在这里，我们使用requests库发起请求，并将HTML文档作为response变量保存。 import requests url = ‘https://ww…

python 2023年5月14日
000
requests_html爬虫小练习

爬取豆瓣TOP250 from requests_html import HTMLSession #新建一个html文件，将相应的代码放入，运行查看结果，如果页面全部渲染则直接根据页面信息获得数据； #如果指定部分没有代码，则是通过ajax提交渲染的结果，需要通过控制台找到指定的后台接口 #session=HTMLSession() # r=session.…

爬虫 2023年4月12日
000
利用爬虫获取网上医院药品价格信息（下）

因为之前的爬虫存在着各种不足，在此我们进行一些必要的扩展和改进。一、加入代理服务器首先，编写另外一个爬虫搜集网上的免费代理服务器编写代理服务器数据爬虫程序”getproxy2.py”，代码如下： 1 from bs4 import BeautifulSoup 2 import urllib2 3 from myLog import MyLog 4 im…

爬虫 2023年4月10日
000

合作推广

合作推广

返回顶部