下面是详细讲解“Python 制作爬虫并将抓取结果保存到 Excel 中”的完整实例教程。
一、准备工作
为了写这个示例,我们需要安装一些 Python 的库:
- requests:用于请求网页的库
- BeautifulSoup:用于解析网页 HTML 的库
- pandas:用于操作 Excel 文件的库
可以使用 pip 安装这些库:
pip install requests beautifulsoup4 pandas
二、编写爬虫
完成准备工作后,我们开始编写爬虫。这里我们以豆瓣电影为例,抓取 Top250 的数据。
import requests
from bs4 import BeautifulSoup
# 请求链接
url = 'https://movie.douban.com/top250'
# 请求头
headers = {
'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/83.0.4103.116 Safari/537.36'
}
r = requests.get(url, headers=headers)
# 对网页 HTML 进行解析
soup = BeautifulSoup(r.content, 'html.parser')
# 获取电影列表
movies = soup.select('.grid_view li')
for movie in movies:
# 获取电影名称和评分
title = movie.select('.title')[0].get_text()
rating = movie.select('.rating_num')[0].get_text()
print(title + ' ' + rating)
爬虫能够完成电影名称和评分的抓取,接下来我们将其保存到 Excel。
三、将数据保存到 Excel
由于 pandas 已经提供了很好用的操作 Excel 文件的功能,因此我们可以用 pandas 将数据保存到 Excel 中。
import pandas as pd
# 创建一个 DataFrame,并将数据添加到 DataFrame 中
data = []
for movie in movies:
title = movie.select('.title')[0].get_text()
rating = movie.select('.rating_num')[0].get_text()
# 将抓取的数据添加到 data 列表中
data.append([title, rating])
# 将 data 列表转换成 DataFrame 对象
df = pd.DataFrame(data, columns=['电影名称', '评分'])
# 将 DataFrame 数据保存到 Excel 中
df.to_excel('douban_top250.xlsx', index=False)
当然,我们也可以使用其他库,如 openpyxl,将数据保存到 Excel 中。以上就是将数据保存到 Excel 的完整示例。
四、两条示例说明
示例一
我们可以通过编写一个爬虫程序抓取杭州市各个区域的房价,然后将其保存到 Excel 文件中。最终的 Excel 文件应该包含以下列:区域、小区名称、总价、单价、房屋面积等。
示例二
我们可以通过编写一个爬虫程序抓取天猫超市所有商品的名称、价格、销量等信息,然后将其保存到 Excel 文件中。最终的 Excel 文件应该包含以下列:商品名称、价格、月销售量等。
以上就是 Python 制作爬虫并将抓取结果保存到 Excel 中的完整实例教程。
本站文章如无特殊说明,均为本站原创,如若转载,请注明出处:python制作爬虫并将抓取结果保存到excel中 - Python技术站