Python网络爬虫笔记（一）：网页抓取方式和LXML示例

2023年4月16日下午8:34 • 爬虫

（一）三种网页抓取方法

1、正则表达式：

模块使用C语言编写，速度快，但是很脆弱，可能网页更新后就不能用了。

2、 Beautiful Soup

模块使用Python编写，速度慢。

安装：

pip install beautifulsoup4

3、 Lxml

模块使用C语言编写，即快速又健壮，通常应该是最好的选择。

（二） Lxml安装

pip install lxml

如果使用lxml的css选择器，还要安装下面的模块

pip install cssselect

（三）使用lxml示例

 1 import urllib.request as re
 2 import lxml.html
 3 #下载网页并返回HTML
 4 def download(url,user_agent='Socrates',num=2):
 5     print('下载:'+url)
 6     #设置用户代理
 7     headers = {'user_agent':user_agent}
 8     request = re.Request(url,headers=headers)
 9     try:
10         #下载网页
11         html = re.urlopen(request).read()
12     except re.URLError as e:
13         print('下载失败'+e.reason)
14         html=None
15         if num>0:
16             #遇到5XX错误时，递归调用自身重试下载，最多重复2次
17             if hasattr(e,'code') and 500<=e.code<600:
18                 return download(url,num=num-1)
19     return html
20 html = download('https://tieba.baidu.com/p/5475267611')
21 #将HTML解析为统一的格式
22 tree = lxml.html.fromstring(html)
23 # img = tree.cssselect('img.BDE_Image')
24 #通过lxml的xpath获取src属性的值，返回一个列表
25 img = tree.xpath('//img[@class="BDE_Image"]/@src')
26 x= 0
27 #迭代列表img,将图片保存在当前目录下
28 for i in img:
29     re.urlretrieve(i,'%s.jpg'%x)
30     x += 1

本站文章如无特殊说明，均为本站原创，如若转载，请注明出处：Python网络爬虫笔记（一）：网页抓取方式和LXML示例 - Python技术站

赞 (0)

微信扫一扫

微信扫一扫

支付宝扫一扫

支付宝扫一扫

ancconda创建爬虫项目

上一篇 2023年4月16日

Python网络爬虫笔记（二）：链接爬虫和下载限速

下一篇 2023年4月16日

Python爬虫定时计划任务的几种常见方法(推荐)

下面我将详细讲解“Python爬虫定时计划任务的几种常见方法”。一、前言爬虫是数据抓取的重要手段之一，而定时任务则是保证数据获取的连续和适时性的关键。因此，掌握如何进行定时的爬虫任务已经变得至关重要。下面将介绍几种不同的Python爬虫定时计划任务的常见方法，希望对大家有所帮助。二、Python定时任务模块 Python中的APScheduler模块…

python 2023年5月14日
000
为什么说python适合写爬虫

Python是一种易学易用的脚本语言，有着良好的可读性和可维护性，因此可以非常方便地用于编写网络爬虫。下面是我为什么说Python适合用于编写爬虫的详细攻略: 1. Python有丰富的爬虫库和框架 Python拥有大量的第三方库和框架，因此针对不同的爬虫需求可以选择适合的库来编写爬虫程序。例如：网络请求库：Requests库是Python的一个HTTP库…

python 2023年5月14日
000
数据解析（爬虫）

聚焦爬虫:爬取页面中指定的页面内容。 – 编码流程： – 指定url – 发起请求 – 获取响应数据 – 数据解析 – 持久化存储数据解析分类： – 正则 – bs4 – xpath（***）数据解析原理概述： – 解析的局部的文本内容都会在标签之间或者标签对应的属性中进行存储 – 1.进行指定标签的定位 – 2.标签或者标签对应的属性中存储的数据值进行…

爬虫 2023年4月12日
000
基于python爬虫数据处理(详解)

基于Python爬虫数据处理本攻略介绍如何使用Python爬虫来获取数据，并使用Python进行数据处理和分析。一、爬虫数据获取 Python中有很多爬虫库可供选择，本攻略使用的是requests和BeautifulSoup库。requests用于获取网页源代码，而BeautifulSoup则用于解析源代码，提取需要的数据。以下是一个简单的示例代码，获…

python 2023年5月14日
000
浅谈Python爬虫基本套路

浅谈Python爬虫基本套路关于爬虫爬虫是指通过程序自动访问互联网资源，获取所需数据的一种技术手段。在信息爆炸的时代，利用自动化工具抓取大量数据并从中寻找自己需要的信息是一种非常重要的技术手段。 Python爬虫 Python可谓是轻巧、易上手的程序语言，也非常适合用于爬虫开发。它前端框架的便利性、运算速度和数据处理能力，让它成为了大家的首选。爬虫的基…

python 2023年5月14日
000
爬虫之 Requests库的基本使用

引入 Requests 唯一的一个非转基因的 Python HTTP 库，人类可以安全享用。警告：非专业使用其他 HTTP 库会导致危险的副作用，包括：安全缺陷症、冗余代码症、重新发明轮子症、啃文档症、抑郁、头疼、甚至死亡。今日概要基于requests的get请求基于requests模块的post请求基于requests模块ajax的get请求基…

爬虫 2023年4月13日
000
Python使用requests模块爬取百度翻译

下面是关于使用 requests 模块爬取百度翻译的攻略。 1. 学习准备首先，我们需要了解一下 requests 模块。requests 是 Python 中一个非常强大的网络库，常用于网络数据的获取等操作。需要注意的是，requests 库需要单独安装，可以通过 pip 工具进行安装。 pip install requests 另外，我们还需要了解一下…

python 2023年5月14日
000
如何使用PyQuery库？

PyQuery是一个类似于jQuery的Python库，它提供了一种可用于解析和操作HTML文档的强大工具。下面是使用PyQuery库的详细说明：安装PyQuery PyQuery库可以通过pip安装。在终端中运行以下命令即可安装： pip install pyquery 导入PyQuery 要使用PyQuery，需要导入该库。可以使用以下代码导入PyQu…

爬虫 2023年4月20日
001

合作推广

合作推广

返回顶部