本攻略将提供一个Python爬虫实例,演示如何爬取城市公交网络站点数据。攻略将包含两个示例,分别演示如何使用requests库和BeautifulSoup库来爬取和解析网页数据。
示例一:使用requests库爬取网页数据
以下是一个示例,演示如何使用requests库爬取网页数据:
import requests
url = 'http://www.example.com/bus/stations'
response = requests.get(url)
print(response.text)
在上面的示例中,首先导入requests库。定义一个名为url
的字符串变量,其中包含要爬取的网页的URL。使用requests.get()
函数获取网页数据,并将其赋值给response
变量。使用response.text
语句获取网页的HTML代码,并将其打印出来。
示例二:使用BeautifulSoup库解析网页数据
以下是一个示例,演示如何使用BeautifulSoup库解析网页数据:
from bs4 import BeautifulSoup
import requests
url = 'http://www.example.com/bus/stations'
response = requests.get(url)
soup = BeautifulSoup(response.text, 'html.parser')
for link in soup.find_all('a'):
print(link.get('href'))
在上面的示例中,首先导入BeautifulSoup库和requests库。定义一个名为url
的字符串变量,其中包含要爬取的网页的URL。使用requests.get()
函数获取网页数据,并将其赋值给response
变量。使用BeautifulSoup()
函数解析网页数据,并将结果赋值给soup
变量。使用soup.find_all('a')
语句获取网页中所有的链接,并使用link.get('href')
语句获取每个链接的URL,并将其打印出来。
以上是一个Python爬虫实例,演示如何爬取城市公交网络站点数据。攻略提供了两个示例,分别演示如何使用requests库和BeautifulSoup库来爬取和解析网页数据。需要注意的是,在爬取网页数据时需要遵守相关法律法规,避免侵犯他人的合法权益。
本站文章如无特殊说明,均为本站原创,如若转载,请注明出处:Python爬虫实例_城市公交网络站点数据的爬取方法 - Python技术站