Python数据分析23种Pandas核心操作方法总结

简介

Pandas是Python中非常流行的数据处理库，它提供了许多强大的数据操作功能，如：数据的读取、处理、清洗、转化、分析、可视化等操作。在本文中，我们将详细讲解Python数据分析23种Pandas核心操作方法，以帮助您更好地进行数据处理和分析。

操作1：读取CSV文件

当处理大量数据时，我们通常会使用CSV（Comma-Separated Values）格式的文件。Pandas提供了方便的函数来读取CSV文件，如下所示：

import pandas as pd

df = pd.read_csv('data.csv')
print(df.head())

在上面的示例中，我们导入了Pandas库，并使用read_csv()函数读取了一个名为data.csv的CSV文件。head()函数用于显示数据中的前几行，默认为前5行。

操作2：读取Excel文件

除了CSV文件，我们还可以使用Excel文件来存储数据。Pandas同样提供了方便的函数来读取Excel文件，如下所示：

import pandas as pd

df = pd.read_excel('data.xlsx')
print(df.head())

在上面的示例中，我们使用read_excel()函数读取了一个名为data.xlsx的Excel文件。

操作3：数据的基本操作

对于数据的基本操作，Pandas提供了许多有用的函数。以下是一些常用的基本操作函数：

dtypes: 显示数据中每一列的数据类型。
describe(): 显示数据集的统计信息，如均值、标准差等。
shape: 显示数据集的形状，即行数和列数。
head(): 显示数据集中的前几行。
tail(): 显示数据集中的后几行。

以下示例展示如何使用这些函数：

import pandas as pd

df = pd.read_csv('data.csv')

print(df.dtypes)
print(df.describe())
print(df.shape)
print(df.head())
print(df.tail())

在上面的示例中，我们读取了一个CSV文件，并使用了dtypes、describe()、shape、head()以及tail()等函数进行数据集的基本操作。

操作4：数据过滤

有时候，我们只需要处理数据集中的一部分数据。在这种情况下，我们可以使用数据过滤功能来选择我们需要的行或列。以下是如何使用数据过滤的方法：

import pandas as pd

df = pd.read_csv('data.csv')

# 筛选出 Age 大于 25 的行
age_filter = df['Age'] > 25
print(df[age_filter])

# 筛选出只包含 Name 和 Age 两列的数据
cols = ['Name', 'Age']
print(df[cols])

在上面的示例中，我们使用了>符号来比较数据集中的Age列的值。然后我们将这个布尔值（True或False）作为过滤器应用于数据集中。在第二个示例中，我们使用了列索引来筛选出只包含Name和Age两列的数据。

操作5：数据聚合

数据聚合是指将数据分组并进行一些聚合操作。我们可以使用groupby()函数来对数据进行聚合。

import pandas as pd

df = pd.read_csv('data.csv')

# 统计每个国家的平均年龄
grouped = df.groupby('Country')
average_age = grouped['Age'].mean()

print(average_age)

在上面的示例中，我们根据国家列对数据进行了分组，然后对每个组的年龄列计算了平均值。

操作6：数据透视表

数据透视表是一种类似于Excel中数据透视表的功能，它可以用来快速汇总和分析数据。我们可以使用pivot_table()函数来创建数据透视表。

import pandas as pd

df = pd.read_csv('data.csv')

# 创建数据透视表
pivot = df.pivot_table(index='Country', columns='Age', values='Salary')

print(pivot)

在上面的示例中，我们使用pivot_table()函数创建了一个数据透视表，其中行是国家，列是年龄，值是薪资。

操作7：数据重塑

数据重塑是指将数据从一种格式转换为另一种格式。Pandas提供了许多函数来进行数据重塑操作，如stack()函数和unstack()函数等。

import pandas as pd

df = pd.read_csv('data.csv')

# 将列转换为行
stacked = df.stack()

print(stacked)

# 将行转换为列
unstacked = stack.unstack()

print(unstacked)

在上面的示例中，我们使用了stack()函数将列转换为行，然后使用了unstack()函数将行转换为列。

示例1：读取一个运动员信息的CSV文件并显示前5行

import pandas as pd

athlete_df = pd.read_csv('athlete_events.csv')
print(athlete_df.head())

在上述示例中，我们使用Pandas读取了一个名为athlete_events.csv的CSV文件，并使用head()函数将文件的前5行数据打印出来。

示例2：使用数据透视表分析红酒品尝数据

import pandas as pd

wine_df = pd.read_csv('wine.csv')

# 创建数据透视表
pivot = wine_df.pivot_table(values='points', index='country', columns='price', aggfunc='mean')

print(pivot)

在上述示例中，我们使用Pandas读取了一个名为wine.csv的CSV文件，并使用pivot_table()函数创建了一个数据透视表，其中值是points列，行是country列，列是price列，聚合函数是mean()函数。

本站文章如无特殊说明，均为本站原创，如若转载，请注明出处：Python数据分析23种Pandas核心操作方法总结 - Python技术站

Python数据分析23种Pandas核心操作方法总结

Python数据分析23种Pandas核心操作方法总结

简介

操作1：读取CSV文件

操作2：读取Excel文件

操作3：数据的基本操作

操作4：数据过滤

操作5：数据聚合

操作6：数据透视表

操作7：数据重塑

示例1：读取一个运动员信息的CSV文件并显示前5行

示例2：使用数据透视表分析红酒品尝数据

相关文章