下面是关于“python批量获取html内body内容的实例”的攻略:
1. 准备工作
在开始之前,需要安装Python和相关的爬虫模块(如requests、Beautiful Soup等)。
首先导入需要用到的模块:
import requests
from bs4 import BeautifulSoup
2. 获取html页面
使用requests库获取html页面,例如:
url = 'https://www.example.com'
r = requests.get(url)
html_doc = r.text
这里以获取example.com网站为例,获取到的html_doc即为完整的html文档。
3. 解析html文档
使用BeautifulSoup对html文档进行解析,可以针对特定标签进行解析,这里以获取<body>
标签内的内容为例:
soup = BeautifulSoup(html_doc, 'html.parser')
body = soup.find('body')
content = body.get_text()
这里通过find方法找到嵌套在<body>
标签中的内容,然后使用get_text方法获取纯文本内容,存储在content变量中。
4. 批量获取
批量获取html内body内容也同样可以使用以上方法循环实现,这里举两个示例:
示例1:获取多个网页的body内容
urls = ['https://www.example1.com', 'https://www.example2.com', 'https://www.example3.com']
contents = []
for url in urls:
r = requests.get(url)
html_doc = r.text
soup = BeautifulSoup(html_doc, 'html.parser')
body = soup.find('body')
content = body.get_text()
contents.append(content)
这里先定义一个包含多个url的列表,然后循环获取每个网页的html并解析,最后将body内容存储在列表中。
示例2:获取单个网页内多个content的body内容
url = 'https://www.example.com'
contents = []
content_ids = ['content1', 'content2', 'content3']
for content_id in content_ids:
r = requests.get(f'{url}#{content_id}')
html_doc = r.text
soup = BeautifulSoup(html_doc, 'html.parser')
body = soup.find('body')
content = body.get_text()
contents.append(content)
这里用到了url中的锚点,获取单个网页内多个content的body内容,循环遍历content_ids并拼接url,最后将body内容存储在列表中。
以上就是关于“python批量获取html内body内容的实例”的攻略,希望对你有所帮助!
本站文章如无特殊说明,均为本站原创,如若转载,请注明出处:python批量获取html内body内容的实例 - Python技术站