Python爬虫之bs4数据解析

本攻略将介绍如何使用Python爬虫中的bs4库进行数据解析。我们将使用bs4库解析HTML和XML响应，并提取所需的数据。

安装bs4库

在开始前，我们需要安装bs4库。我们可以使用以下命令在命令行中安装bs4库：

pip install beautifulsoup4

解析HTML响应

我们将使用bs4库解析HTML响应。以下是一个示例代码，用于解析HTML响应：

from bs4 import BeautifulSoup

html = '<html><head><title>Test</title></head><body><p>Hello, World!</p></body></html>'
soup = BeautifulSoup(html, 'html.parser')
title = soup.title.text
body = soup.body.p.text
print(f'Title: {title}, Body: {body}')

在上面的代码中，我们使用BeautifulSoup库的构造函数解析了HTML响应，并使用select_one方法选择了title和body元素，并使用text属性获取了它们的文本内容。

示例1：解析HTML响应中的链接

以下是一个示例代码，用于解析HTML响应中的链接：

import requests
from bs4 import BeautifulSoup

url = 'https://www.python.org/'
response = requests.get(url)
soup = BeautifulSoup(response.text, 'html.parser')
links = soup.select('a')
for link in links:
    href = link.get('href')
    if href and href.startswith('http'):
        print(href)

在上面的代码中，我们使用requests库发送HTTP GET请求，并使用BeautifulSoup库解析HTML响应。我们使用select方法选择了所有链接元素，并使用get方法获取了它们的href属性，并使用if语句筛选了以http开头的链接，并使用print方法输出了这些链接。

解析XML响应

我们将使用bs4库解析XML响应。以下是一个示例代码，用于解析XML响应：

from bs4 import BeautifulSoup

xml = '<root><person><name>John</name><age>30</age></person><person><name>Jane</name><age>25</age></person></root>'
soup = BeautifulSoup(xml, 'xml')
persons = soup.select('person')
for person in persons:
    name = person.select_one('name').text
    age = person.select_one('age').text
    print(f'Name: {name}, Age: {age}')

在上面的代码中，我们使用BeautifulSoup库的构造函数解析了XML响应，并使用select方法选择了所有person元素，并使用select_one方法选择了name和age元素，并使用text属性获取了它们的文本内容。

示例2：解析XML响应中的属性

以下是一个示例代码，用于解析XML响应中的属性：

from bs4 import BeautifulSoup

xml = '<root><person name="John" age="30"/><person name="Jane" age="25"/></root>'
soup = BeautifulSoup(xml, 'xml')
persons = soup.select('person')
for person in persons:
    name = person['name']
    age = person['age']
    print(f'Name: {name}, Age: {age}')

在上面的代码中，我们使用BeautifulSoup库的构造函数解析了XML响应，并使用select方法选择了所有person元素，并使用字典方式获取了它们的name和age属性，并使用print方法输出了这些属性。

总结

本攻略介绍了如何使用Python爬虫中的bs4库进行数据解析。我们使用bs4库解析HTML和XML响应，并提取所需的数据。我们提供了两个示例，分别用于解析HTML响应中的链接和解析XML响应中的属性。这些技巧可以帮助我们更好地抓取和处理网页数据。

本站文章如无特殊说明，均为本站原创，如若转载，请注明出处：python爬虫之bs4数据解析 - Python技术站

python爬虫之bs4数据解析