爬虫解析库re,Beautifulsoup,

2023年4月12日下午11:24 • 爬虫

re模块

Beautifulsoup模块

#安装 Beautiful Soup
pip install beautifulsoup4

#安装解析器
Beautiful Soup支持Python标准库中的HTML解析器,还支持一些第三方的解析器,其中一个是 lxml .根据操作系统不同,可以选择下列方法来安装lxml:

$ apt-get install Python-lxml

$ easy_install lxml

$ pip install lxml

另一个可供选择的解析器是纯Python实现的 html5lib , html5lib的解析方式与浏览器相同,可以选择下列方法来安装html5lib:

$ apt-get install Python-html5lib

$ easy_install html5lib

$ pip install html5lib

解析器,官网推荐使用lxml作为解析器,因为效率更高. 在Python2.7.3之前的版本和Python3中3.2.2之前的版本,必须安装lxml或html5lib, 因为那些Python版本的标准库中内置的HTML解析方法不够稳定.

html_doc = """
<html><head><title>The Dormouse's story</title></head>
<body>
<p class="title"><b>The Dormouse's story</b></p>

<p class="story">Once upon a time there were three little sisters; and their names were
<a href="http://example.com/elsie" class="sister" >Elsie</a>,
<a href="http://example.com/lacie" class="sister" >Lacie</a> and
<a href="http://example.com/tillie" class="sister" >Tillie</a>;
and they lived at the bottom of a well.</p>

<p class="story">...</p>
"""

#基本使用：容错处理,文档的容错能力指的是在html代码不完整的情况下,使用该模块可以识别该错误。使用BeautifulSoup解析上述代码,能够得到一个 BeautifulSoup 的对象,并能按照标准的缩进格式的结构输出
from bs4 import BeautifulSoup
soup=BeautifulSoup(html_doc,'lxml') #具有容错功能
res=soup.prettify() #处理好缩进，结构化显示
print(res)

基本使用

本站文章如无特殊说明，均为本站原创，如若转载，请注明出处：爬虫解析库re,Beautifulsoup, - Python技术站

赞 (0)

微信扫一扫

微信扫一扫

支付宝扫一扫

支付宝扫一扫

爬虫 requests模块的其他用法抽屉网线程池回调爬取+保存实例,gihub登陆实例

上一篇 2023年4月12日

python爬虫 – js逆向之猿人学第十七题http2.0

下一篇 2023年4月12日

python爬虫：用BeautifulSoup抓取div标签

1 # -*- coding:utf-8 -*- 2 #python 2.7 3 #XiaoDeng 4 #http://tieba.baidu.com/p/2460150866 5 #标签操作 6 7 8 from bs4 import BeautifulSoup 9 import urllib.request 10 import re 11 12 13 …

爬虫 2023年4月12日
000
Python爬虫新手入门之初学lxml库

Python爬虫新手入门之初学lxml库什么是lxml库？ Lxml是一个Python库，它用于解析XML和HTML文档。它是Python中最好的HTML和XML解析器之一。安装lxml库在安装lxml库之前，首先需要确保已经安装了以下依赖项： libxml2 libxslt 在Linux系统中，可以使用以下命令安装这些依赖项： sudo apt-ge…

python 2023年5月14日
000
爬虫系列之第4章-mongodb

简介 Mongodb 是目前最流行的 NoSQL 数据库之一。 CRUD 数据库操作 > use blog switched to db blog > show dbs admin 0.000GB config 0.000GB local 0.000GB test 0.000GB > db.article.insert({“title”:”…

爬虫 2023年4月12日
000
python爬虫爬取幽默笑话网站

Python爬虫爬取幽默笑话网站攻略一、确定目标网站首先需要决定要爬取的目标网站，以本次任务为例，我们选取了幽默笑话网站（http://www.laugh123.cn/）。二、分析目标网页结构在开始编写爬虫代码之前，需要分析目标网页的结构，确定需要收集哪些信息以及信息的位置。例如，我们需要爬取的信息包括标题和内容，那么我们需要查看目标网页的源代码，…

python 2023年5月14日
000
python爬虫刷访问量 2019 7月

Python爬虫是一种可以自动化模拟浏览器行为获取网页数据的技术，所以如果想要刷访问量，可以使用Python爬虫来实现。下面是一个完整的攻略以及两条示例说明。一、前置知识在实现Python爬虫之前，需要了解以下知识点： HTTP协议：了解HTTP请求和响应的格式，以及常见的状态码和内容类型。 HTML语法：了解HTML标签和结构，以及常见的CSS和Jav…

python 2023年5月14日
000
Python爬虫：把爬取到的数据插入到execl中

当我们爬虫爬取大量数据并且已经爬取到了本地，这些数据如果不存储起来，那么就会变得无效. 那下面让小编教你把这些数据插入Excel中保存下来吧~ 我们已经把数据爬到本地并已经插入execl，上效果图操作Execl其实里面很多东西要去了解，但这里我讲常用的读写，满足我们的一般需求,感兴趣的朋友可以自己去深入。 1. 读execl文件需…

爬虫 2023年4月10日
000
基于scrapy-redis两种形式的分布式爬虫

引子 : scrapy框架能否自己实现分布式 ? 　　- 不可以　　　　- 原因一 : 因为多台机器上部署的scrapy会各自拥有各自的调度器,这样就使得多态机器无法分配 start_urls 列表中的url . (多台机器无法共享同一个调度器) 　　　　- 原因二 : 多台机器爬取到的数据无法通过一个管道对数据进行统一的数据持久化存储(多台机器…

爬虫 2023年4月13日
000
[Python爬虫]cnblogs博客备份工具

并发爬虫小练习。直接粘贴到本地，命名为.py文件即可运行，运行时的参数为你想要爬取的用户。默认是本博客。输出是以用户名命名的目录，目录内便是博客内容。仅供学习python的多线程编程方法，后续会重写成并行爬虫。爬虫代码如下： 1 # -*- coding:utf-8 -*- 2 from multiprocessing.managers import…

爬虫 2023年4月11日
000

合作推广

合作推广

返回顶部