XPath是一种用于在XML和HTML文档中定位元素的语言。在Python中,我们可以使用XPath来采集数据。以下是Python实战使用XPath采集数据示例解析的完整攻略,包含两个示例。
步骤1:安装必要的库
在使用XPath采集数据之前,我们需要先安装必要的库。以下是需要安装的库:
- lxml:用于解析HTML和XML文档。
可以使用pip命令来安装这些库:
pip install lxml```
## 步骤2:使用XPath采集数据
在安装必要的库之后,我们可以使用XPath采集数据。以下是一个示例,可以使用XPath采集某网站的新闻标题和链接:
```python
from lxml import etree
import requests
url = 'https://www.baidu.com'
response = requests.get(url)
html = etree.HTML(response.text)
items = html.xpath('//a[@class="title"]')
for item in items:
title = item.xpath('./text()')[0]
link = item.xpath('./@href')[0]
print(title, link)
在上面的示例中,我们使用requests库发送HTTP请求,使用lxml库解析HTML文档,并使用XPath定位HTML文档中的新闻标题和链接。
以下是另一个示例,可以使用XPath采集某网站的商品信息:
from lxml import etree
import requests
url = 'https://www.amazon.com/s?k=python+book&ref=nb_sb_noss_1'
response = requests.get(url)
html = etree.HTML(response.text)
items = html.xpath('//div[@class="s-result-item"]')
for item in items:
title = item.xpath('.//h2/a/span/text()')[0]
link = item.xpath('.//h2/a/@href')[0]
price = item.xpath('.//span[@class="a-price-whole"]/text()')[0]
print(title, link, price)
在上面的示例中,我们使用requests库发送HTTP请求,使用lxml库解析HTML文档,并使用XPath定位HTML文档中的商品标题、链接和价格。
示例1:使用XPath采集天气数据
以下是一个示例,可以使用XPath采集某城市未来7天的天气数据:
from lxml import etree
import requests
url = 'https://tianqi.moji.com/weather/china/shanghai/pudong-new-district'
response = requests.get(url)
html = etree.HTML(response.text)
items = html.xpath('//div[@class="wea_info"]')
for item in items:
date = item.xpath('.//em/text()')[0]
weather_text = item.xpath('.//b/text()')[0]
temperature = item.xpath('.//span/text()')[0]
print(date, weather_text, temperature)
在上面的示例中,我们使用requests库发送HTTP请求,使用lxml库解析HTML文档,并使用XPath定位某城市未来7天的天气数据。
示例2:使用XPath采集股票数据
以下是一个示例,可以使用XPath采集某股票最近30天的股票数据:
from lxml import etree
import requests
url = 'https://finance.sina.com.cn/realstock/company/sh600519/nc.shtml'
headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.110 Safari/537.3'}
response = requests.get(url, headers=headers)
html = etree.HTML(response.text)
items = html.xpath('//tr[@class="tr_2"]')
for item in items:
date = item.xpath('.//td[1]/text()')[0]
open_price = item.xpath('.//td[2]/text()')[0]
high_price = item.xpath('.//td[3]/text()')[0]
low_price = item.xpath('.//td[4]/text()')[0]
close_price = item.xpath('.//td[5]/text()')[0]
print(date, open_price, high_price, low_price, close_price)
在上面的示例中,我们使用requests库发送HTTP请求,使用lxml库解析HTML文档,并使用XPath定位某股票最近30天的股票数据。
本站文章如无特殊说明,均为本站原创,如若转载,请注明出处:Python实战使用XPath采集数据示例解析 - Python技术站