Python数据分析23种Pandas核心操作方法总结
简介
Pandas是Python中非常流行的数据处理库,它提供了许多强大的数据操作功能,如:数据的读取、处理、清洗、转化、分析、可视化等操作。在本文中,我们将详细讲解Python数据分析23种Pandas核心操作方法,以帮助您更好地进行数据处理和分析。
操作1:读取CSV文件
当处理大量数据时,我们通常会使用CSV(Comma-Separated Values)格式的文件。Pandas提供了方便的函数来读取CSV文件,如下所示:
import pandas as pd
df = pd.read_csv('data.csv')
print(df.head())
在上面的示例中,我们导入了Pandas库,并使用read_csv()
函数读取了一个名为data.csv
的CSV文件。head()
函数用于显示数据中的前几行,默认为前5行。
操作2:读取Excel文件
除了CSV文件,我们还可以使用Excel文件来存储数据。Pandas同样提供了方便的函数来读取Excel文件,如下所示:
import pandas as pd
df = pd.read_excel('data.xlsx')
print(df.head())
在上面的示例中,我们使用read_excel()
函数读取了一个名为data.xlsx
的Excel文件。
操作3:数据的基本操作
对于数据的基本操作,Pandas提供了许多有用的函数。以下是一些常用的基本操作函数:
dtypes
: 显示数据中每一列的数据类型。describe()
: 显示数据集的统计信息,如均值、标准差等。shape
: 显示数据集的形状,即行数和列数。head()
: 显示数据集中的前几行。tail()
: 显示数据集中的后几行。
以下示例展示如何使用这些函数:
import pandas as pd
df = pd.read_csv('data.csv')
print(df.dtypes)
print(df.describe())
print(df.shape)
print(df.head())
print(df.tail())
在上面的示例中,我们读取了一个CSV文件,并使用了dtypes
、describe()
、shape
、head()
以及tail()
等函数进行数据集的基本操作。
操作4:数据过滤
有时候,我们只需要处理数据集中的一部分数据。在这种情况下,我们可以使用数据过滤功能来选择我们需要的行或列。以下是如何使用数据过滤的方法:
import pandas as pd
df = pd.read_csv('data.csv')
# 筛选出 Age 大于 25 的行
age_filter = df['Age'] > 25
print(df[age_filter])
# 筛选出只包含 Name 和 Age 两列的数据
cols = ['Name', 'Age']
print(df[cols])
在上面的示例中,我们使用了>
符号来比较数据集中的Age列的值。然后我们将这个布尔值(True或False)作为过滤器应用于数据集中。在第二个示例中,我们使用了列索引来筛选出只包含Name和Age两列的数据。
操作5:数据聚合
数据聚合是指将数据分组并进行一些聚合操作。我们可以使用groupby()
函数来对数据进行聚合。
import pandas as pd
df = pd.read_csv('data.csv')
# 统计每个国家的平均年龄
grouped = df.groupby('Country')
average_age = grouped['Age'].mean()
print(average_age)
在上面的示例中,我们根据国家列对数据进行了分组,然后对每个组的年龄列计算了平均值。
操作6:数据透视表
数据透视表是一种类似于Excel中数据透视表的功能,它可以用来快速汇总和分析数据。我们可以使用pivot_table()
函数来创建数据透视表。
import pandas as pd
df = pd.read_csv('data.csv')
# 创建数据透视表
pivot = df.pivot_table(index='Country', columns='Age', values='Salary')
print(pivot)
在上面的示例中,我们使用pivot_table()
函数创建了一个数据透视表,其中行是国家,列是年龄,值是薪资。
操作7:数据重塑
数据重塑是指将数据从一种格式转换为另一种格式。Pandas提供了许多函数来进行数据重塑操作,如stack()
函数和unstack()
函数等。
import pandas as pd
df = pd.read_csv('data.csv')
# 将列转换为行
stacked = df.stack()
print(stacked)
# 将行转换为列
unstacked = stack.unstack()
print(unstacked)
在上面的示例中,我们使用了stack()
函数将列转换为行,然后使用了unstack()
函数将行转换为列。
示例1:读取一个运动员信息的CSV文件并显示前5行
import pandas as pd
athlete_df = pd.read_csv('athlete_events.csv')
print(athlete_df.head())
在上述示例中,我们使用Pandas读取了一个名为athlete_events.csv
的CSV文件,并使用head()
函数将文件的前5行数据打印出来。
示例2:使用数据透视表分析红酒品尝数据
import pandas as pd
wine_df = pd.read_csv('wine.csv')
# 创建数据透视表
pivot = wine_df.pivot_table(values='points', index='country', columns='price', aggfunc='mean')
print(pivot)
在上述示例中,我们使用Pandas读取了一个名为wine.csv
的CSV文件,并使用pivot_table()
函数创建了一个数据透视表,其中值是points
列,行是country
列,列是price
列,聚合函数是mean()
函数。
本站文章如无特殊说明,均为本站原创,如若转载,请注明出处:Python数据分析23种Pandas核心操作方法总结 - Python技术站