Python使用Beautiful Soup(BS4)库解析HTML和XML

Beautiful Soup是Python中一个非常流行的HTML和XML解析库，可以帮助我们更方便地解析网页。本文将介绍如何使用Beautiful Soup解析HTML和XML，并提供两个示例。

安装依赖库

在使用Beautiful Soup解析HTML和XML之前，需要安装一些依赖库。以下是一个示例代码，演示如何使用pip安装依赖库：

pip install beautifulsoup4 lxml

示例1：解析HTML

以下是一个示例代码，演示如何使用Beautiful Soup解析HTML：

from bs4 import BeautifulSoup

html_doc = """
<html>
<head>
    <title>Example HTML Document</title>
</head>
<body>
    <h1>Example HTML Document</h1>
    <p>This is an example HTML document.</p>
    <ul>
        <li>Item 1</li>
        <li>Item 2</li>
        <li>Item 3</li>
    </ul>
</body>
</html>
"""

soup = BeautifulSoup(html_doc, 'lxml')
print(soup.prettify())

在上面的代码中，我们首先导入了Beautiful Soup类。然后，我们定义了一个名为html_doc的变量，它包含要解析的HTML文档。接下来，我们使用Beautiful Soup类将HTML文档解析为BeautifulSoup对象，并使用prettify()方法将解析结果格式化为易于阅读的形式。最后，我们打印解析结果。

示例2：解析XML

以下是一个示例代码，演示如何使用Beautiful Soup解析XML：

from bs4 import BeautifulSoup

xml_doc = """
<root>
    <person>
        <name>John</name>
        <age>30</age>
    </person>
    <person>
        <name>Jane</name>
        <age>25</age>
    </person>
</root>
"""

soup = BeautifulSoup(xml_doc, 'lxml-xml')
for person in soup.find_all('person'):
    name = person.find('name').text
    age = person.find('age').text
    print(f'{name} is {age} years old.')

在上面的代码中，我们首先导入了Beautiful Soup类。然后，我们定义了一个名为xml_doc的变量，它包含要解析的XML文档。接下来，我们使用Beautiful Soup类将XML文档解析为BeautifulSoup对象，并使用find_all()方法查找具有特定标签的元素。然后，我们使用find()方法查找具有特定标签的子元素，并使用text属性获取元素的文本内容。最后，我们打印每个人的姓名和年龄。

总结

本文介绍了如何使用Beautiful Soup解析HTML和XML，并提供了两个示例。我们使用了Beautiful Soup类将HTML和XML文档解析为BeautifulSoup对象，并使用prettify()方法将解析结果格式化为易于阅读的形式，使用find_all()方法查找具有特定标签的元素，使用find()方法查找具有特定标签的子元素，并使用text属性获取元素的文本内容。这些工具可以帮我们更好地理解和分析网页和XML文档，并做出更好的决策。

本站文章如无特殊说明，均为本站原创，如若转载，请注明出处：Python使用Beautiful Soup(BS4)库解析HTML和XML - Python技术站

Python使用Beautiful Soup(BS4)库解析HTML和XML

Python使用Beautiful Soup(BS4)库解析HTML和XML

安装依赖库

示例1：解析HTML

示例2：解析XML

总结

相关文章