网络爬虫（5）–小实战

2023年4月13日下午8:54 • 爬虫

到目前为止，我们学习了如何访问远程网站，如何解析页面内容，是时候开始应用一下了。在这里，我们以通过http://www.heibanke.com/lesson/crawler_ex00/为例，这个网站会告诉我们爬虫应该向哪里链接，直到爬到通过为止。

首先我们需要查看网页的源代码，确定我们需要的信息在哪里。通过查看源代码，我们可以知道，我们关注的信息应该是h3标签文本中的数字。

网络爬虫（5）--小实战

因此我们的任务就是提取出这个数字，然后链接到新的地址，直到完成为止。

首先我们从BeautifulSoup中提取出标签h3中的文本，然后通过正则表达式分解出里面的数字，将数字加入地址，继续访问新地址，知道没有数字为止。

 1 # coding=utf-8
 2 __author__ = 'f403'
 3 from urllib.request import urlopen
 4 from urllib.error import HTTPError
 5 from bs4 import BeautifulSoup
 6 import re
 7 rootUrl = "http://www.heibanke.com/lesson/crawler_ex00/"
 8 
 9 def getUrl(url=""):
10     try:
11         html = urlopen(rootUrl+url)
12         if html is None:
13             print("html is empty")
14             return  None
15         else:
16             try:
17                 bs = BeautifulSoup(html.read().decode('utf8'),"lxml")
18                 #text = bs.find("h3").get_text()
19 
20                 text = bs.find('h3').get_text()
21                 return text
22             except AttributeError as e:
23                 return None
24     except HTTPError as e:
25         return None
26 
27 if __name__ =='__main__':
28     txt = getUrl()
29     print(txt)
30     while txt is not None:
31         pattern = re.compile("[0-9]+")
32         num = pattern.search(txt)
33         if num is not None:
34             print(num.group())
35             txt = getUrl(num.group())
36         else:
37             txt = None
38 
39     print("end")

网络爬虫（5）--小实战

来自为知笔记(Wiz)

本站文章如无特殊说明，均为本站原创，如若转载，请注明出处：网络爬虫（5）–小实战 - Python技术站

赞 (0)

微信扫一扫

微信扫一扫

支付宝扫一扫

支付宝扫一扫

网络爬虫（2）–异常处理

上一篇 2023年4月13日

网络爬虫（3）–Beautiful页面解析

下一篇 2023年4月13日

python 爬虫如何正确的使用cookie

Python爬虫如何正确使用cookie的完整攻略什么是cookie Cookie，指的是网站为了辨别用户身份，维护登录态，而储存在用户本地终端上的数据。通俗的来讲，当我们在浏览器里面登录某个网站时，这个网站会向我们浏览器中写入一些数据，这就是cookie。爬虫模拟登录网站时需要注意的是，要在请求头中加入cookie，模拟用户已经通过登录验证的状态。否则…

python 2023年5月14日
000
如何爬取JavaScript动态生成的内容？

网络爬虫爬取JavaScript动态生成的内容的过程可以分为以下几步：确定目标和需求：首先，需要明确想爬取的具体内容，并明确它的来源和访问方式，例如某个网页、某个API 或者某个特定的功能等等。分析网页结构：浏览器可以直接执行 JavaScript 代码，但是爬虫并不具备这个能力，必须分析 JavaScript 代码，了解其实现的功能以及调用方式，并解析…

爬虫 2023年4月20日
000
Python探索之爬取电商售卖信息代码示例

我会为你详细讲解“Python探索之爬取电商售卖信息代码示例”的完整攻略。一、前置知识在开始学习“Python探索之爬取电商售卖信息代码示例”之前，我们需要掌握以下知识： Python基础语法，包括数据类型、控制语句、函数、模块、异常处理等。 HTTP协议基础知识，了解HTTP请求响应的基本流程，掌握常见的HTTP请求方法和状态码。网页结构基础知识，包…

python 2023年5月14日
000
python爬虫分布式获取数据的实例方法

我来为您详细讲解 “Python爬虫分布式获取数据的实例方法” 的完整攻略。什么是Python爬虫分布式？ Python爬虫分布式是指将一个爬虫程序在多台计算机上执行，可以大大提高爬虫的性能和效率。通常情况下，Python爬虫分布式使用的工具是Scrapy-Redis，它是Scrapy和Redis结合使用的分布式爬虫框架。 Python爬虫分布式获取数据的…

python 2023年5月14日
000
二十四 Python分布式爬虫打造搜索引擎Scrapy精讲—爬虫和反爬的对抗过程以及策略—scrapy架构源码分析图

1、基本概念 2、反爬虫的目的 3、爬虫和反爬的对抗过程以及策略 scrapy架构源码分析图

爬虫 2023年4月13日
000
简单爬虫爬去51job职位

#-*- coding:utf-8 -*- from urllib import request from bs4 import BeautifulSoup from urllib import parse import pymysql from sqlalchemy import * from sqlalchemy.orm import * def get…

爬虫 2023年4月11日
000
Python爬取城市租房信息实战分享

Python爬取城市租房信息实战分享 1. 概述本篇文章将介绍如何使用Python语言爬取城市租房信息的过程。本文使用的是Python 3.x版本和requests库、BeautifulSoup库和pandas库等。具体的操作包括向目标网站发送HTTP请求，解析响应内容，提取目标数据和存储数据等步骤。 2. 准备工作在开始爬虫之前，需要安装相应的库和软…

python 2023年5月14日
000
爬虫

JS逆向之补环境过瑞数详解

纯补环境黑盒过瑞数 JS逆向之补环境过瑞数详解 “瑞数” 是逆向路上的一座大山，是许多JS逆向者绕不开的一堵围墙，也是跳槽简历上的一个亮点，我们必须得在下次跳槽前攻克它！！好在现在网上有很多讲解瑞数相关的文章，贴心的一步一步教我们去分析瑞数流程，分析如何去扣瑞数逻辑，企图以此教会我们 (手动狗头)。却鲜有文章详细去讲解如何通过纯补环境的方式过瑞数。今天，它…

2023年4月8日
000

合作推广

合作推广

返回顶部