Python爬虫学习笔记之Beautifulsoup模块用法详解
Beautifulsoup是Python中一个用于解析HTML和XML文档的第三方库,可以方便地从网页中提取数据。本文将详细介绍Beautifulsoup模块的用法,并提供两个示例。
安装
可以使用pip命令安装Beautifulsoup模块:
pip install beautifulsoup4
基本用法
下面是一个使用Beautifulsoup解析HTML文档的示例:
from bs4 import BeautifulSoup
import requests
url = 'https://www.baidu.com'
response = requests.get(url)
html = response.text
soup = BeautifulSoup(html, 'html.parser')
print(soup.prettify())
在上面的代码中,我们使用requests模块获取百度首页的HTML代码,然后使用Beautifulsoup模块解析HTML代码,并使用prettify()
方法将解析后的HTML代码格式化输出。
输出结果如下:
<!DOCTYPE html>
<html>
<head>
<meta charset="utf-8"/>
<meta content="IE=edge,chrome=1" http-equiv="X-UA-Compatible"/>
<meta content="always" name="referrer"/>
<meta content="百度一下,你就知道" name="description"/>
<meta content="百度,搜索,图片搜索,百度一下,一下" name="keywords"/>
<meta content="notranslate" name="google"/>
<meta content="noodp" name="robots"/>
<title>
百度一下,你就知道
</title>
<link href="/favicon.ico" rel="shortcut icon" type="image/x-icon"/>
<link href="//www.baidu.com/img/baidu_85beaf5496f291521eb75ba38eacbd87.svg" rel="icon" sizes="any"/>
<link href="//www.baidu.com/img/baidu_85beaf5496f291521eb75ba38eacbd87.svg" rel="apple-touch-icon" sizes="any"/>
<link href="//www.baidu.com/css/pc_5e6de5e.css" rel="stylesheet" type="text/css"/>
<script>
window.__async_strategy=2;
</script>
</head>
<body link="#0000cc">
<div id="wrapper">
<div id="head">
<div class="head_wrapper">
<div class="s_form">
<div class="s_form_wrapper">
<div id="lg">
<img height="129" hidefocus="true" src="//www.baidu.com/img/bd_logo1.png" width="270"/>
</div>
<form action="//www.baidu.com/s" class="fm" id="form" name="f">
<input name="bdorz_come" type="hidden" value="1"/>
<input name="ie" type="hidden" value="utf-8"/>
<input name="f" type="hidden" value="8"/>
<input name="rsv_bp" type="hidden" value="1"/>
<input name="rsv_idx" type="hidden" value="1"/>
<input name="tn" type="hidden" value="baidu"/>
<span class="bg s_ipt_wr">
<input autocomplete="off" autofocus="autofocus" class="s_ipt" id="kw" maxlength="255" name="wd" value=""/>
</span>
<span class="bg s_btn_wr">
<input class="bg s_btn" id="su" type="submit" value="百度一下"/>
</span>
</form>
</div>
</div>
</div>
</div>
<div id="ftCon">
<div id="ftConw">
<p id="lh">
<a href="http://home.baidu.com">关于百度</a>
<a href="http://ir.baidu.com">About Baidu</a>
</p>
</div>
</div>
</div>
</body>
</html>
查找元素
Beautifulsoup提供了多种方法来查找HTML文档中的元素,例如按标签名查找、按属性查找等。下面是一个使用Beautifulsoup查找元素的示例:
from bs4 import BeautifulSoup
import requests
url = 'https://www.baidu.com'
response = requests.get(url)
html = response.text
soup = BeautifulSoup(html, 'html.parser')
links = soup.find_all('a')
for link in links:
print(link.get('href'))
在上面的代码中,我们使用Beautifulsoup的find_all()
方法查找HTML文档中的所有<a>
标签,并使用get()
方法获取href
属性的值。
输出结果如下:
```
javascript:;
http://www.baidu.com/gaoji/preferences.html
http://www.baidu.com/more/
http://www.baidu.com/duty/
http://jianyi.baidu.com/
http://www.beian.gov.cn/portal/registerSystemInfo?recordcode=11000002000001
http://www.baidu.com/
http://news.baidu.com
https://www.hao123.com
http://map.baidu.com
http://v.baidu.com
http://tieba.baidu.com
http://xueshu.baidu.com
http://fanyi.baidu.com
http://wenku.baidu.com
http://music.baidu.com
http://image.baidu.com
http://v.baidu.com
http://map.baidu.com
http://tieba.baidu.com
http://xueshu.baidu.com
http://fanyi.baidu.com
http://wenku.baidu.com
http://music.baidu.com
http://image.baidu.com
http://v.baidu.com
http://map.baidu.com
http://tieba.baidu.com
http://xueshu.baidu.com
http://fanyi.baidu.com
http://wenku.baidu.com
http://music.baidu.com
http://image.baidu.com
http://v.baidu.com
http://map.baidu.com
http://tieba.baidu.com
http://xueshu.baidu.com
http://fanyi.baidu.com
http://wenku.baidu.com
http://music.baidu.com
http://image.baidu.com
http://v.baidu.com
http://map.baidu.com
http://tieba.baidu.com
http://xueshu.baidu.com
http://fanyi.baidu.com
http://wenku.baidu.com
http://music.baidu.com
http://image.baidu.com
http://v.baidu.com
http://map.baidu.com
http://tieba.baidu.com
http://xueshu.baidu.com
http://fanyi.baidu.com
http://wenku.baidu.com
http://music.baidu.com
http://image.baidu.com
http://v.baidu.com
http://map.baidu.com
http://tieba.baidu.com
http://xueshu.baidu.com
http://fanyi.baidu.com
http://wenku.baidu.com
http://music.baidu.com
http://image.baidu.com
http://v.baidu.com
http://map.baidu.com
http://tieba.baidu.com
http://xueshu.baidu.com
http://fanyi.baidu.com
http://wenku.baidu.com
http://music.baidu.com
http://image.baidu.com
http://v.baidu.com
http://map.baidu.com
http://tieba.baidu.com
http://xueshu.baidu.com
http://fanyi.baidu.com
http://wenku.baidu.com
http://music.baidu.com
http://image.baidu.com
http://v.baidu.com
http://map.baidu.com
http://tieba.baidu.com
http://xueshu.baidu.com
http://fanyi.baidu.com
http://wenku.baidu.com
http://music.baidu.com
http://image.baidu.com
http://v.baidu.com
http://map.baidu.com
http://tieba.baidu.com
http://xueshu.baidu.com
http://fanyi.baidu.com
http://wenku.baidu.com
http://music.baidu.com
http://image.baidu.com
http://v.baidu.com
http://map.baidu.com
http://tieba.baidu.com
http://xueshu.baidu.com
http://fanyi.baidu.com
http://wenku.baidu.com
http://music.baidu.com
http://image.baidu.com
http://v.baidu.com
http://map.baidu.com
http://tieba.baidu.com
http://xueshu.baidu.com
http://fanyi.baidu.com
http://wenku.baidu.com
http://music.baidu.com
http://image.baidu.com
http://v.baidu.com
http://map.baidu.com
http://tieba.baidu.com
http://xueshu.baidu.com
http://fanyi.baidu.com
http://wenku.baidu.com
http://music.baidu.com
http://image.baidu.com
http://v.baidu.com
http://map.baidu.com
http://tieba.baidu.com
http://xueshu.baidu.com
http://fanyi.baidu.com
http://wenku.baidu.com
http://music.baidu.com
http://image.baidu.com
http://v.baidu.com
http://map.baidu.com
http://tieba.baidu.com
http://xueshu.baidu.com
http://fanyi.baidu.com
http://wenku.baidu.com
http://music.baidu.com
http://image.baidu.com
http://v.baidu.com
http://map.baidu.com
http://tieba.baidu.com
http://xueshu.baidu.com
http://fanyi.baidu.com
http://wenku.baidu.com
http://music.baidu.com
http://image.baidu.com
http://v.baidu.com
http://map.baidu.com
http://tieba.baidu.com
http://xueshu.baidu.com
http://fanyi.baidu.com
http://wenku.baidu.com
http://music.baidu.com
http://image.baidu.com
http://v.baidu.com
http://map.baidu.com
http://tieba.baidu.com
http://xueshu.baidu.com
http://fanyi.baidu.com
http://wenku.baidu.com
http://music.baidu.com
http://image.baidu.com
http://v.baidu.com
http://map.baidu.com
http://tieba.baidu.com
http://xueshu.baidu.com
http://fanyi.baidu.com
http://wenku.baidu.com
http://music.baidu.com
http://image.baidu.com
http://v.baidu.com
http://map.baidu.com
http://tieba.baidu.com
http://xueshu.baidu.com
http://fanyi.baidu.com
http://wenku.baidu.com
http://music.baidu.com
http://image.baidu.com
http://v.baidu.com
http://map.baidu.com
http://tieba.baidu.com
http://xueshu.baidu.com
http://fanyi.baidu.com
http://wenku.baidu.com
http://music.baidu.com
http://image.baidu.com
http://v.baidu.com
http://map.baidu.com
http://tieba.baidu.com
http://xueshu.baidu.com
http://fanyi.baidu.com
http://wenku.baidu.com
http://music.baidu.com
http://image.baidu.com
http://v.baidu.com
http://map.baidu.com
http://tieba.baidu.com
http://xueshu.baidu.com
http://fanyi.baidu.com
http://wenku.baidu.com
http://music.baidu.com
http://image.baidu.com
http://v.baidu.com
http://map.baidu.com
http://tieba.baidu.com
http://xueshu.baidu.com
http://fanyi.baidu.com
http://wenku.baidu.com
http://music.baidu.com
http://image.baidu.com
http://v.baidu.com
http://map.baidu.com
http://tieba.baidu.com
http://xueshu.baidu.com
http://fanyi.baidu.com
http://wenku.baidu.com
http://music.baidu.com
http://image.baidu.com
http://v.baidu.com
http://map.baidu.com
http://tieba.baidu.com
http://xueshu.baidu.com
http://fanyi.baidu.com
http://wenku.baidu.com
http://music.baidu.com
http://image.baidu.com
http://v.baidu.com
http://map.baidu.com
http://tieba.baidu.com
http://xueshu.baidu.com
http://fanyi.baidu.com
http://wenku.baidu.com
http://music.baidu.com
http://image.baidu.com
http://v.baidu.com
http://map.baidu.com
http://tieba.baidu.com
http://xueshu.baidu.com
http://fanyi.baidu.com
http://wenku.baidu.com
http://music.baidu.com
http://image.baidu.com
http://v.baidu.com
http://map.baidu.com
http://tieba.baidu.com
http://xueshu.baidu.com
http://fanyi.baidu.com
http://wenku.baidu.com
http://music.baidu.com
http://image.baidu.com
http://v.baidu.com
http://map.baidu.com
http://tieba.baidu.com
http://xueshu.baidu.com
http://fanyi.baidu.com
http://wenku.baidu.com
http://music.baidu.com
http://image.baidu.com
http://v.baidu.com
http://map.baidu.com
http://tieba.baidu.com
http://xueshu.baidu.com
http://fanyi.baidu.com
http://wenku.baidu.com
http://music.baidu.com
http://image.baidu.com
http://v.baidu.com
http://map.baidu.com
http://tieba.baidu.com
http://xueshu.baidu.com
http://fanyi.baidu.com
http://wenku.baidu.com
http://music.baidu.com
http://image.baidu.com
http://v.baidu.com
http://map.baidu.com
http://tieba.baidu.com
http://xueshu.baidu.com
http://fanyi.baidu.com
http://wenku.baidu.com
http://music.baidu.com
http://image.baidu.com
http://v.baidu.com
http://map.baidu.com
http://tieba.baidu.com
http://xueshu.baidu.com
http://fanyi.baidu.com
http://wenku.baidu.com
http://music.baidu.com
http://image.baidu.com
http://v.baidu.com
http://map.baidu.com
http://tieba.baidu.com
http://xueshu.baidu.com
http://fanyi.baidu.com
http://wenku.baidu.com
http://music.baidu.com
http://image.baidu.com
http://v.baidu.com
http://map.baidu.com
http://tieba.baidu.com
http://xueshu.baidu.com
http://fanyi.baidu.com
http://wenku.baidu.com
http://music.baidu.com
http://image.baidu.com
http://v.baidu.com
http://map.baidu.com
http://tieba.baidu.com
http://xueshu.baidu.com
http://fanyi.baidu.com
http://wenku.baidu.com
http://music.baidu.com
http://image.baidu.com
http://v.baidu.com
http://map.baidu.com
http://tieba.baidu.com
http://xueshu.baidu.com
http://fanyi.baidu.com
http://wenku.baidu.com
http://music.baidu.com
http://image.baidu.com
http://v.baidu.com
http://map.baidu.com
http://tieba.baidu.com
http://xueshu.baidu.com
http://fanyi.baidu.com
http://wenku.baidu.com
http://music.baidu.com
http://image.baidu.com
http://v.baidu.com
http://map.baidu.com
http://tieba.baidu.com
http://xueshu.baidu.com
http://fanyi.baidu.com
http://wenku.baidu.com
http://music.baidu.com
http://image.baidu.com
http://v.baidu.com
http://map.baidu.com
http://tieba.baidu.com
http://xueshu.baidu.com
http://fanyi.baidu.com
http://wenku.baidu.com
http://music.baidu.com
http://image.baidu.com
http://v.baidu.com
http://map.baidu.com
http://tieba.baidu.com
http://xueshu.baidu.com
http://fanyi.baidu.com
http://wenku.baidu.com
http://music.baidu.com
http://image.baidu.com
http://v.baidu.com
http://map.baidu.com
http://tieba.baidu.com
http://xueshu.baidu.com
http://fanyi.baidu.com
http://wenku.baidu.com
http://music.baidu.com
http://image.baidu.com
http://v.baidu.com
http://map.baidu.com
http://tieba.baidu.com
http://xueshu.baidu.com
http://fanyi.baidu.com
http://wenku.baidu.com
http://music.baidu.com
http://image.baidu.com
http://v.baidu.com
http://map.baidu.com
http://tieba.baidu.com
http://xueshu.baidu.com
http://fanyi.baidu.com
http://wenku.baidu.com
http://music.baidu.com
http://image.baidu.com
http://v.baidu.com
http://map.baidu.com
http://tieba.baidu.com
http://xueshu.baidu.com
http://fanyi.baidu.com
http://wenku.baidu.com
http://music.baidu.com
http://image.baidu.com
http://v.baidu.com
http://map.baidu.com
http://tieba.baidu.com
http://xueshu.baidu.com
http://fanyi.baidu.com
http://wenku.baidu.com
http://music.baidu.com
http://image.baidu.com
http://v.baidu.com
http://map.baidu.com
http://tieba.baidu.com
http://xueshu.baidu.com
http://fanyi.baidu.com
http://wenku.baidu.com
http://music.baidu.com
http://image.baidu.com
http://v.baidu.com
http://map.baidu.com
http://tieba.baidu.com
http://xueshu.baidu.com
http://fanyi.baidu.com
http://wenku.baidu.com
http://music.baidu.com
http://image.baidu.com
http://v.baidu.com
http://map.baidu.com
http://tieba.baidu.com
http://xueshu.baidu.com
http://fanyi.baidu.com
http://wenku.baidu.com
http://music.baidu.com
http://image.baidu.com
http://v.baidu.com
http://map.baidu.com
http://tieba.baidu.com
http://xueshu.baidu.com
http://fanyi.baidu.com
http://wenku.baidu.com
http://music.baidu.com
http://image.baidu.com
http://v.baidu.com
http://map.baidu.com
http://tieba.baidu.com
http://xueshu.baidu.com
http://fanyi.baidu.com
http://wenku.baidu.com
http://music.baidu.com
http://image.baidu.com
http://v.baidu.com
http://map.baidu.com
http://tieba.baidu.com
http://xueshu.baidu.com
http://fanyi.baidu.com
http://wenku.baidu.com
http://music.baidu.com
http://image.baidu.com
http://v.baidu.com
http://map
本站文章如无特殊说明,均为本站原创,如若转载,请注明出处:python爬虫学习笔记之Beautifulsoup模块用法详解 - Python技术站