Python实现抓取网页生成Excel文件的方法示例

下面是“Python实现抓取网页生成Excel文件的方法示例”的完整实例教程。

1. 前置知识

在学习本教程之前，你需要具备以下基础知识：

Python编程语言基础
HTTP相关知识
请求和响应的格式

2. 准备工作

在开始编写代码之前，你需要安装以下两个Python库：

requests：发送HTTP请求和接收HTTP响应
openpyxl：操作Excel文件

你可以使用以下命令来安装这两个库：

pip install requests openpyxl

3. 抓取网页数据

首先，我们需要使用requests库获取网页数据。以下是获取网页数据的基本代码：

import requests

response = requests.get(url)
html = response.text

其中，url是要抓取的网页地址，response是获取的响应对象，html是响应对象的文本内容。你可以根据需要添加用户代理、cookie等信息来模拟浏览器发送请求。

4. 生成Excel文件

接下来，我们需要使用openpyxl库来生成Excel文件。以下是生成Excel文件的基本代码：

import openpyxl

workbook = openpyxl.Workbook()
sheet = workbook.active
sheet.title = 'Sheet1'

以上代码创建了一个新的Excel工作簿，并创建一个名为'Sheet1'的工作表。你可以根据需要添加更多的工作表、标题和数据。

以下是向工作表添加数据的基本代码：

sheet.cell(row, column, value)

其中，row和column分别是行号和列号，value是单元格的值。你可以根据需要添加更多的数据和格式。

最后，我们需要将工作簿保存为Excel文件。以下是保存Excel文件的基本代码：

workbook.save('example.xlsx')

以上代码将工作簿保存为名为'example.xlsx'的文件，你可以根据需要设置文件路径和名称。

5. 示例说明一

以下是一个示例，展示如何使用Python抓取个人博客首页的文章标题和链接，并将其保存到Excel文件：

import requests
import openpyxl

response = requests.get('https://example.com/')
html = response.text

workbook = openpyxl.Workbook()
sheet = workbook.active
sheet.title = 'Blog Posts'

# 添加标题行
sheet.cell(1, 1, 'Title')
sheet.cell(1, 2, 'Link')

# 添加数据行
rows = html.split('</a></h2>')
for i in range(len(rows)-1):
    title = rows[i].split('">')[-1]
    link = rows[i].split('"')[-2]
    sheet.cell(i+2, 1, title)
    sheet.cell(i+2, 2, link)

workbook.save('blog_posts.xlsx')

以上代码使用requests库发送GET请求获取个人博客首页的HTML数据，然后使用openpyxl库创建一个名为'Blog Posts'的工作表和一个标题行，最后循环遍历文章标题和链接，并将其添加到工作表中。最终生成一个名为'blog_posts.xlsx'的Excel文件，其中包含了所有文章的标题和链接。

6. 示例说明二

以下是另一个示例，展示如何使用Python抓取淘宝上某一类商品的名称、价格和销量，并将其保存到Excel文件：

import requests
import openpyxl

url = 'https://s.taobao.com/search'
params = {
    'q': '电脑',
    's': '0',
    'ie': 'utf8'
}

response = requests.get(url, params=params)
json_data = response.json()

workbook = openpyxl.Workbook()
sheet = workbook.active
sheet.title = 'Products'

# 添加标题行
sheet.cell(1, 1, 'Name')
sheet.cell(1, 2, 'Price')
sheet.cell(1, 3, 'Sales')

# 添加数据
items = json_data['mods']['itemlist']['data']['auctions']
for i, item in enumerate(items):
    name = item['raw_title']
    price = item['view_price']
    sales = item['view_sales']
    sheet.cell(i+2, 1, name)
    sheet.cell(i+2, 2, price)
    sheet.cell(i+2, 3, sales)

workbook.save('products.xlsx')

以上代码使用requests库向淘宝发送包含搜索关键字的GET请求，获取到JSON格式的响应数据，然后使用openpyxl库创建一个名为'Products'的工作表和一个标题行，最后循环遍历商品名称、价格和销量，并将其添加到工作表中。最终生成一个名为'products.xlsx'的Excel文件，其中包含了搜索结果中所有商品的名称、价格和销量。

7. 总结

本教程通过两个示例分别展示了如何使用Python抓取网页数据和生成Excel文件。你可以根据需要自定义网页地址、参数、数据等内容，并使用相关库进行处理和操作。在实际应用中，你还可以添加异常处理、定时任务、多线程等功能，实现更加高效和稳定的数据抓取和处理。

本站文章如无特殊说明，均为本站原创，如若转载，请注明出处：Python实现抓取网页生成Excel文件的方法示例 - Python技术站