python制作爬虫并将抓取结果保存到excel中

下面是详细讲解“Python 制作爬虫并将抓取结果保存到 Excel 中”的完整实例教程。

一、准备工作

为了写这个示例，我们需要安装一些 Python 的库：

requests：用于请求网页的库
BeautifulSoup：用于解析网页 HTML 的库
pandas：用于操作 Excel 文件的库

可以使用 pip 安装这些库：

pip install requests beautifulsoup4 pandas

二、编写爬虫

完成准备工作后，我们开始编写爬虫。这里我们以豆瓣电影为例，抓取 Top250 的数据。

import requests
from bs4 import BeautifulSoup

# 请求链接
url = 'https://movie.douban.com/top250'

# 请求头
headers = {
    'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/83.0.4103.116 Safari/537.36'
}

r = requests.get(url, headers=headers)

# 对网页 HTML 进行解析
soup = BeautifulSoup(r.content, 'html.parser')

# 获取电影列表
movies = soup.select('.grid_view li')
for movie in movies:
    # 获取电影名称和评分
    title = movie.select('.title')[0].get_text()
    rating = movie.select('.rating_num')[0].get_text()
    print(title + ' ' + rating)

爬虫能够完成电影名称和评分的抓取，接下来我们将其保存到 Excel。

三、将数据保存到 Excel

由于 pandas 已经提供了很好用的操作 Excel 文件的功能，因此我们可以用 pandas 将数据保存到 Excel 中。

import pandas as pd

# 创建一个 DataFrame，并将数据添加到 DataFrame 中
data = []
for movie in movies:
    title = movie.select('.title')[0].get_text()
    rating = movie.select('.rating_num')[0].get_text()

    # 将抓取的数据添加到 data 列表中
    data.append([title, rating])

# 将 data 列表转换成 DataFrame 对象
df = pd.DataFrame(data, columns=['电影名称', '评分'])

# 将 DataFrame 数据保存到 Excel 中
df.to_excel('douban_top250.xlsx', index=False)

当然，我们也可以使用其他库，如 openpyxl，将数据保存到 Excel 中。以上就是将数据保存到 Excel 的完整示例。

四、两条示例说明

示例一

我们可以通过编写一个爬虫程序抓取杭州市各个区域的房价，然后将其保存到 Excel 文件中。最终的 Excel 文件应该包含以下列：区域、小区名称、总价、单价、房屋面积等。

示例二

我们可以通过编写一个爬虫程序抓取天猫超市所有商品的名称、价格、销量等信息，然后将其保存到 Excel 文件中。最终的 Excel 文件应该包含以下列：商品名称、价格、月销售量等。

以上就是 Python 制作爬虫并将抓取结果保存到 Excel 中的完整实例教程。

本站文章如无特殊说明，均为本站原创，如若转载，请注明出处：python制作爬虫并将抓取结果保存到excel中 - Python技术站

python制作爬虫并将抓取结果保存到excel中

一、准备工作

二、编写爬虫

三、将数据保存到 Excel

四、两条示例说明

示例一

示例二

相关文章