scrapy爬虫中如何实现翻页请求

2023年4月10日下午10:55 • 爬虫

通过scrapy.Request实现翻页请求：

 scrapy.Request(url, callback=None, method='GET', headers=None, body=None, cookies=None, meta=None,
                         encoding='utf-8', priority=0, dont_filter=False, errback=None, flags=None)

这里一爬取腾讯招聘网站的岗位信息为例制作一个爬虫进行翻页请求的实现

 1 # -*- coding: utf-8 -*-
 2 import scrapy
 3 
 4 
 5 class HrSpider(scrapy.Spider):
 6     name = 'Hr'
 7     allowed_domains = ['tencent.com']
 8     start_urls = ['https://hr.tencent.com/position.php']
 9 
10     def parse(self, response):
11         tr_list=response.xpath("//table[@class='tablelist']/tr")[1:-1]
12         for tr in tr_list:
13             item={}
14             item["title"]=tr.xpath("./td[1]/a/text()").extract_first()
15             item["postion"]=tr.xpath("./td[2]/text()").extract_first()
16             item["publish_date"]=tr.xpath("./td[5]/text()").extract_first()
17             yield item
18         #找到下一页的URL地址,实现翻页请求
19         next_url=response.xpath("//a[@id='next']/@href").extract_first()
20         if next_url !=" javascript:;":
21             next_url="https://hr.tencent.com/"+next_url
22             yield scrapy.Request(
23                 next_url,
24                 callback=self.parse
25             )

本站文章如无特殊说明，均为本站原创，如若转载，请注明出处：scrapy爬虫中如何实现翻页请求 - Python技术站

赞 (0)

微信扫一扫

微信扫一扫

支付宝扫一扫

支付宝扫一扫

scrapy框架下爬虫实现详情页抓取

上一篇 2023年4月10日

在scrapy框架下爬虫中如何实现翻页请求

下一篇 2023年4月10日

python反反爬虫技术限制连续请求时间处理

Python反爬虫技术主要包括IP封禁、UA识别和频率限制等，其中频率限制是指对访问频率进行限制，防止爬虫程序过快地访问网站，影响正常用户的访问体验。在实现反爬虫的过程中，常常会采用限制连续请求时间的方法来进行限制，本文将详细讲解如何通过Python实现该技术。什么是限制连续请求时间限制连续请求时间是一种反爬虫技术，其主要思想是限制同一个IP地址在一段时…

python 2023年5月14日
000
爬虫-jsoup解析

我们抓取到页面之后，还需要对页面进行解析。可以使用字符串处理工具解析页面，也可以使用正则表达式，但是这些方法都会带来很大的开发成本，所以我们需要使用一款专门解析html页面的技术。 1.1. jsoup介绍 jsoup 是一款Java 的HTML解析器，可直接解析某个URL地址、HTML文本内容。它提供了一套非常省力的API，可通过DOM，CSS以及类似于j…

爬虫 2023年4月11日
000
scrapy 执行同个项目多个爬虫

一开始我们默认都是只有一个爬虫的,所以执行的代码都是在项目下创建一个py文件 from scrapy import cmdlinecmdline.execute(‘scrapy crawl 爬虫名’.split( )) 但是要执行多个爬虫就犯难了,在这里我只是做个笔记加强记忆原博客 https://www.cnblogs.com/lei0213/p…

爬虫 2023年4月10日
000
记录一次爬虫报错：Message: Failed to decode response from marionette

由于标题中的错误引发： Message: Tried to run command without establishing a connection 解释：先说一下我的爬虫架构，用的是firefox+selenium，上面的那个错误是因为浏览器退出之后，爬虫还要浏览器去执行一些命令，所以才报上面的错误，那第二个问题来了：浏览器为什么会自动crash（崩…

爬虫 2023年4月13日
000
爬虫要具备的准则：

　　不能犯法：　　　　　　一定要遵循Robots协议：　　　　　　 Robots协议（爬虫协议）的全称是“网络爬虫排除标准”（Robots Exclusion Protocol），网站通过Robots协议告诉搜索引擎哪些页面可以抓取，哪些页面不能抓取。该协议是国际互联网界通行的道德规范，虽然没有写入法律，但是每一个爬虫都应该遵守这项协议。下面以淘宝网的…

爬虫 2023年4月11日
000
Python并发爬虫常用实现方法解析

Python并发爬虫常用实现方法解析前言随着互联网的发展，数据已经成为企业和个人获取商业价值的一种重要手段。其中，网络爬虫和数据挖掘技术也同样成为了网络数据获取的关键技术。而在实际应用中，爬虫的爬取效率和并发能力也成为了评价一个爬虫质量的重要指标。所以，在爬虫开发中的并发处理技术是必须掌握的。本文主要介绍在Python中的爬虫并发处理技术，通过学习并实…

python 2023年5月14日
000
Atitit 核心技术有哪些一般目录第一章 Rest调用交互 2 第二章 2 第三章 Cmd调用交互 2 第四章 2 第五章爬虫技术 2 第一节 Httpclient 2 第二节 Html

Atitit 核心技术有哪些一般目录第一章 Rest调用交互第二章第三章 Cmd调用交互第四章第五章爬虫技术第一节 Httpclient 第二节 Html解析第三节浏览器技术访问动态js内容第四节图像识别第六章 Db技术第一节索引技术（btree，hash，fulltxt）第二节 Sql解析第三节事务引擎技术第四节…

爬虫 2023年4月16日
000
python 爬虫之selenium可视化爬虫的实现

Python爬虫之selenium可视化爬虫的实现什么是selenium Selenium是一个自动化测试工具，它支持多种浏览器，包括Chrome、Firefox、IE等主流WebDriver浏览器。Selenium具有模拟浏览器操作的功能，可以实现点击、输入等操作，获取网页源码或者截图等功能。Selenium可以帮助我们更方便地进行Web应用测试，也可以…

python 2023年5月14日
000

合作推广

合作推广

返回顶部