Python基于pandas爬取网页表格数据

Python是一种流行的编程语言，pandas是Python中常用的数据处理库，可以方便地进行数据分析、清洗和处理等操作。本文将具体讲解如何使用Python和pandas来爬取网页表格数据。

准备工作

在使用Python和pandas进行网页表格数据爬取之前，需要先安装所需的相关库。可以使用以下命令来安装：

pip install pandas
pip install requests
pip install beautifulsoup4

其中，pandas库用于数据处理和分析，requests库用于向网站发送请求，beautifulsoup4库则用于解析HTML代码。

网页表格数据爬取流程

首先需要确定要爬取的网页地址，使用requests库中的get方法发送请求，获取该网页的HTML代码。

import requests

url = "http://www.example.com"
response = requests.get(url)
html = response.content

解析HTML代码，找到所需的表格数据。这里可以使用beautifulsoup4库来解析HTML代码，并找到表格的标签和属性。

from bs4 import BeautifulSoup

soup = BeautifulSoup(html)
table = soup.find("table", {"class": "my-table"})

将表格数据存储到pandas的数据结构中。通过遍历表格的行和列，将数据存储到DataFrame中，便于后续的数据分析和处理。

import pandas as pd

data = []
rows = table.find_all("tr")
for row in rows:
    cells = row.find_all("td")
    row_data = []
    for cell in cells:
        row_data.append(cell.text)
    data.append(row_data)
df = pd.DataFrame(data, columns=["Column 1", "Column 2", "Column 3"])

最后可以将数据保存到本地文件，便于后续使用。使用pandas的to_csv方法将数据保存为CSV格式文件。

df.to_csv("table_data.csv", index=False)

示例说明

以下是一个具体的示例，演示如何使用Python和pandas爬取一个网页的表格数据，并将数据保存为CSV文件。

确定要爬取的网页地址，例如：http://www.example.com/table.html
使用requests库发送请求，获取该网页的HTML代码。

import requests

url = "http://www.example.com/table.html"
response = requests.get(url)
html = response.content

解析HTML代码，找到所需的表格数据。这里假设我们需要爬取网页中的名字、年龄和性别这三个字段，它们分别位于表格的第一列、第二列和第三列。

from bs4 import BeautifulSoup

soup = BeautifulSoup(html)
table = soup.find("table", {"class": "my-table"})

将表格数据存储到pandas的数据结构中。通过遍历表格的行和列，将数据存储到DataFrame中。

import pandas as pd

data = []
rows = table.find_all("tr")
for row in rows:
    cells = row.find_all("td")
    row_data = []
    for cell in cells:
        row_data.append(cell.text)
    data.append(row_data)
df = pd.DataFrame(data, columns=["Name", "Age", "Gender"])

最后将数据保存到本地文件。这里将数据保存为CSV格式文件，并命名为table_data.csv。

df.to_csv("table_data.csv", index=False)

以上就是爬取网页表格数据的完整攻略，通过正确地使用Python和pandas，可以方便地获取所需的数据，并进行后续的分析和处理。

本站文章如无特殊说明，均为本站原创，如若转载，请注明出处：Python基于pandas爬取网页表格数据 - Python技术站

Python基于pandas爬取网页表格数据

准备工作

网页表格数据爬取流程

示例说明

相关文章