python数据解析之XPath详解

XPath是一种用于在XML文档中定位元素和属性的语言。Python提供了多种解析XML数据的方法，其中包括使用XPath表达式解析XML数据。以下是详细讲解Python数据解析之XPath详解，包含两个示例。

示例1：使用XPath解析XML

以下是一个示例，可以使用XPath解析XML：

from lxml import etree

# 定义XML文档
xml = '''
<bookstore>
    <book category="cooking">
        <title lang="en">Everyday Italian</title>
        <author>Giada De Laurentiis</author>
        <year>2005</year>
        <price>30.00</price>
    </book>
    <book category="children">
        <title lang="en">Harry Potter</title>
        <author>J.K. Rowling</author>
        <year>2005</year>
        <price>29.99</price>
    </book>
</bookstore>
'''

# 解析XML文档
root = etree.fromstring(xml)

# 使用XPath获取所有书籍
books = root.xpath('//book')

# 输出结果
for book in books:
    title = book.xpath('title/text()')[0]
    author = book.xpath('author/text()')[0]
    year = book.xpath('year/text()')[0]
    price = book.xpath('price/text()')[0]
    print(f'Title: {title}')
    print(f'Author: {author}')
    print(f'Year: {year}')
    print(f'Price: {price}')

在上面的示例中，我们首先定义一个XML文档，并使用lxml的fromstring方法解析文档。然后，我们使用XPath表达式获取所有书籍，并使用xpath方法获取每个书籍的标题、作者、年份和价格。最后，我们使用print函数输出结果。

示例2：使用XPath解析HTML

以下是一个示例，可以使用XPath解析HTML：

import requests
from lxml import etree

# 发送HTTP请求
response = requests.get('https://www.python.org/')

# 解析HTML文档
root = etree.HTML(response.text)

# 使用XPath获取所有链接
links = root.xpath('//a/@href')

# 输出结果
for link in links:
    print(link)

在上面的示例中，我们首先使用requests库发送HTTP请求，并使用lxml的HTML方法解析HTML文档。然后，我们使用XPath表达式获取所有链接，并使用xpath方法获取每个链接的URL。最后，我们使用print函数输出结果。

总结

XPath是一种用于在XML文档中定位元素和属性的语言。Python提供了多种解析XML数据的方法，其中包括使用XPath表达式解析XML数据。使用XPath可以轻松地从XML或HTML文档中提取所需的数据。

本站文章如无特殊说明，均为本站原创，如若转载，请注明出处：python数据解析之XPath详解 - Python技术站

python数据解析之XPath详解

相关文章