用Pandas的read_html()来抓取维基百科的表格

2023年3月27日下午2:26 • python-answer

yizhihongxing

当需要从互联网上获取数据时，网页上的表格是一个很好的数据源。而Python中的Pandas库提供了一个方便的方法来获取HTML表格。这个方法是read_html()，它可以从web页面上的table标签中提取出数据。

使用read_html()来抓取维基百科的表格有以下步骤：

1.导入所需的库

import pandas as pd

2.创建一个URL变量，用于存储要抓取数据的网页地址。以维基百科为例，我们可以使用以下的URL链接：

url = 'https://en.wikipedia.org/wiki/List_of_countries_by_population_(United_Nations)'

3.使用read_html()方法读取HTML标记表格数据并返回一个数据框(DataFrame)列表(list)。由于网站上可以有多个表格，因此返回的是数据框列表(list)，我们需要通过索引来获取具体的表格，如下例子：

table = pd.read_html(url)
df = table[0] #第一个表格

4.整理处理数据，将表格组织成所需格式。网站上的表格可能因为样式等原因变得杂乱无章,此时我们需要进行数据的处理和整理，将表格中的数据转化为我们需要的格式，比如以下代码可以更改列名、删除不需要的列、去掉一些特殊的字符。

df = df.rename(columns={"Country or area[a]": "Country"})
df = df.drop(['Rank', 'Date', 'Source'], axis=1)
df['Country'] = df['Country'].str.replace('\[.*?\]', '',regex=True).str.strip()

5.输出结果，以便进行查看：

print(df)

通过以上步骤，便可以使用read_html()从维基百科上抓取一个表格的数据，并将其转换为pandas数据框以供后续进一步处理。

注意：仅当HTML页面中有table标签存在并且标签符合标准的结构时，read_html()才能正常操作。如果表格的HTML结构不符合标准，read_html()可能会返回空列表或错误的结果。

本站文章如无特殊说明，均为本站原创，如若转载，请注明出处：用Pandas的read_html()来抓取维基百科的表格 - Python技术站

赞 (0)

微信扫一扫

微信扫一扫

支付宝扫一扫

支付宝扫一扫

在Python中使用Pandas替换缺失值

上一篇 2023年3月27日

Python与Pandas和XlsxWriter组合工作 – 3

下一篇 2023年3月27日

如何在Pandas中读取一个文件夹中的所有CSV文件

在Pandas中，我们可以使用read_csv()函数来读取CSV文件。为了读取文件夹中所有的CSV文件，我们需要使用Python的os库来获取文件夹中所有CSV文件的路径，并使用循环遍历路径列表，依次读取每个CSV文件。下面是示例代码，演示如何读取文件夹中的所有CSV文件，并将它们合并成一个Pandas数据框： import os import pand…

python-answer 2023年3月27日
000
如何将Pandas数据框架追加到现有的CSV文件？

将Pandas数据框追加到现有的CSV文件，其实就是将数据框的行添加到CSV文件的末尾。以下是如何实现这一操作的完整攻略：读取现有CSV文件使用Pandas的read_csv函数读取现有CSV文件，并将其存储在一个数据框中。创建要追加的数据框创建要添加到CSV文件中的数据框，确保其具有与现有CSV文件相同的列名称和数据类型。使用Pandas的to…

python-answer 2023年3月27日
000
Pandas 格式化日期时间

当进行数据分析时，我们会遇到很多带有日期、时间格式的数据集，在处理这些数据集时，就需要对日期时间做统一的格式化处理。比如“Wednesday, June 6, 2023”可以写成“6/6/23”，或“06-06-2023”。在 Pandas 中，我们可以使用 pd.to_datetime() 函数将日期字符串或时间戳转换为 Pandas 的日期时间类型。…

Pandas 2023年3月6日
001
在Pandas数据框架中用零替换负数

在Pandas数据框架中，用零替换负数可以使用DataFrame.where方法。具体步骤如下：导入Pandas库并读取数据，获得一个数据框架。 python import pandas as pd df = pd.read_csv(‘data.csv’) 使用where方法将所有负数替换为零。 python df.where(df >= 0, 0,…

python-answer 2023年3月27日
000
在django项目中,如何单独运行某个python文件

在 Django 项目中，我们可以通过以下步骤单独运行某个 Python 文件：创建一个可以独立运行的 Python 文件，该文件将执行我们要运行的特定任务。在 Django 项目的根目录中，创建一个名为 manage.py 的 Python 文件，该文件是 Django 提供的命令行工具，用于管理 Django 项目。使用 ./manage.py s…

python 2023年5月14日
000
Pandas reindex重置索引的4种方法

Pandas的reindex()方法可以用来重新排列DataFrame或Series的索引，并返回一个具有新索引的新对象。reindex()方法有以下几种常用的用法： Series.reindex() Series.reindex()方法用于Series类型，可以根据给定的索引值重新排列Series的索引。当索引值在原Series中不存在时，对应的值会被填充…

Pandas 2023年3月4日
001
Python中的Pandas.get_option()函数

Pandas.get_option()函数是一个用于获取Pandas选项卡的函数，它允许用户查询和更改Pandas库的设置选项。 Pandas中有数百个设置选项，它们定义了Pandas如何处理数据的细节。使用get_option函数可以查询当前设置选项的值。函数的语法如下： pandas.get_option(pat, display=None) 参数说明…

python-answer 2023年3月27日
000
Pandas头、尾巴和样本的区别

首先，需要了解Pandas是Python中数据处理的一种重要工具，可以处理Excel、SQL等各类数据，并对其进行清理、转换、聚合等操作。而在Pandas中，头、尾巴和样本是常用的数据查看操作。一、Pandas头头指令：df.head(n) df.head(n)是Pandas中一种用于查看数据前n行的指令。其中，n是一个整数，可以指定需要查看的行数。默认…

python-answer 2023年3月27日
000

合作推广

合作推广

返回顶部