Python爬虫是一种常见的网络爬虫技术,可以用于从网站上获取数据。PyQuery是一个Python库,它提供了类似于jQuery的语法,可以方便地解析HTML和XML文档。以下是Python爬虫学习笔记之PyQuery模块基本用法详解,包含两个示例。
示例1:解析HTML文档
以下是一个示例,可以使用PyQuery解析HTML文档:
from pyquery import PyQuery as pq
# 加载HTML文档
html = '''
<html>
<head>
<title>PyQuery Example</title>
</head>
<body>
<h1>Hello, World!</h1>
<ul>
<li>Item 1</li>
<li>Item 2</li>
<li>Item 3</li>
</ul>
</body>
</html>
'''
# 解析HTML文档
doc = pq(html)
# 获取标题
title = doc('title').text()
# 获取列表项
items = doc('li')
# 输出结果
print(title)
for item in items:
print(pq(item).text())
在上面的示例中,我们首先定义一个HTML文档,并使用PyQuery的PyQuery方法加载文档。然后,我们使用text方法获取标题,并使用选择器获取列表项。最后,我们使用text方法获取每个列表项的文本,并使用print函数输出结果。
示例2:爬取网页内容
以下是一个示例,可以使用PyQuery爬取网页内容:
import requests
from pyquery import PyQuery as pq
# 发送HTTP请求
url = 'http://example.com'
response = requests.get(url)
# 解析HTML文档
doc = pq(response.text)
# 获取标题
title = doc('title').text()
# 获取正文
content = doc('div.content').text()
# 输出结果
print(title)
print(content)
在上面的示例中,我们首先使用requests库发送HTTP请求,并使用PyQuery解析响应文本。然后,我们使用选择器获取标题和正文,并使用text方法获取它们的文本。最后,我们使用print函数输出结果。
总结
PyQuery是一个Python库,它提供了类似于jQuery的语法,可以方便地解析HTML和XML文档。使用PyQuery可以轻松地解析HTML文档,并从中提取所需的数据。在爬取网页内容时,我们可以使用requests库发送HTTP请求,并使用PyQuery解析响应文本。
本站文章如无特殊说明,均为本站原创,如若转载,请注明出处:python爬虫学习笔记之pyquery模块基本用法详解 - Python技术站