Python pandas 常用函数详解

Python pandas 是一个用于数据分析的强大工具，提供了丰富的函数和方法用以处理数据。本文将详细讲解 pandas 中常用的函数，包括数据导入、索引与选择、数据处理、数据排序和数据统计等。

数据导入

pandas 提供了方便的数据导入功能，支持导入多种格式的数据，如 csv、Excel 或 SQL 数据库等。常用的函数有 read_csv、read_excel 和 read_sql。

`read_csv()`

import pandas as pd

df = pd.read_csv('data.csv')
print(df.head())

read_csv 函数将 csv 文件导入为一个 DataFrame 对象。上述代码读取名为 data.csv 的文件并输出前五行数据。read_csv 有很多可选参数，如 sep、header 和 index_col 等，可根据不同的数据设置不同的参数。

`read_excel()`

import pandas as pd

df = pd.read_excel('data.xlsx')
print(df.head())

类似于 read_csv，read_excel 函数也将数据读取为一个 DataFrame 对象，只不过读取的是 Excel 文件。可以通过设置参数来控制读取 Excel 的不同 sheet 或者选择需要读取的列数等等。

索引与选择

DataFrame 对象可以通过各种索引和切片方式进行数据选取和查找。以下是几种常用的索引方式：

位置索引

import pandas as pd

df = pd.read_csv('data.csv')
print(df.iloc[0])  # 输出第一行

iloc 是基于整数位置的索引方式，可以通过传入行号和列号来定位数据。

标签索引

import pandas as pd

df = pd.read_csv('data.csv', index_col='ID')
print(df.loc['001'])  # 输出 ID 为 '001' 的行

loc 是基于标签名的索引方式，可以通过传入列名和行名来定位数据，其中 index_col 参数可以用于指定使用哪一列作为索引列。

数据处理

数据处理是 pandas 中非常重要的一部分，其中包括数据清洗、数据变换、数据合并等等。下面是几个常用的函数和方法：

`drop_duplicates()`

import pandas as pd

df = pd.read_csv('data.csv')
df = df.drop_duplicates()

drop_duplicates 可以用于删除 DataFrame 中的重复行。默认情况下，drop_duplicates 函数会保留第一个重复行，并删除其余的重复行，也可以通过设置 keep 参数来指定保留最后一个重复行。

`groupby()`

import pandas as pd

df = pd.read_csv('data.csv')
grouped = df.groupby('Type')
print(grouped['Sales'].sum())

groupby 是基于某些列的值对 DataFrame 进行分组操作，可以进行分组运算、聚合、转换等等。上述代码按照 Type 列对 DataFrame 进行分组，并计算每个组的 Sales 值之和。

数据排序

排序是数据分析中必不可少的操作，pandas 中提供了 sort_values 函数和 sort_index 函数用于对 DataFrame 对象进行排序操作。

`sort_values()`

import pandas as pd

df = pd.read_csv('data.csv')
df.sort_values(by=['Sales'], inplace=True)
print(df.head())

sort_values 可以按照指定列的值进行排序，其中 by 参数可以指定按照哪些列进行排序，inplace 参数可以指定是否对原 DataFrame 进行修改。

`sort_index()`

import pandas as pd

df = pd.read_csv('data.csv', index_col='ID')
df.sort_index(inplace=True)
print(df.head())

sort_index 可以按照索引进行排序操作，inplace 参数同样可以指定是否对原 DataFrame 进行修改。

数据统计

数据统计是数据分析中不可或缺的一环，pandas 中提供了许多统计函数进行数据分析，如 sum、mean、max、min 等等。

import pandas as pd

df = pd.read_csv('data.csv')
print(df['Sales'].sum())  # 计算 Sales 列的总和
print(df.describe())  # 对 DataFrame 进行描述性统计

上述代码分别计算了 Sales 列的总和和对 DataFrame 进行描述性统计，其余的统计函数在使用时也非常简单，只需要将统计函数作用于 DataFrame 对象的列即可。

以上就是 Python pandas 常用函数详解的完整攻略，其中包括数据导入、索引与选择、数据处理、数据排序和数据统计等方面。通过学习这些常用函数和示例代码，可以更好地掌握 pandas 的应用。

本站文章如无特殊说明，均为本站原创，如若转载，请注明出处：Python pandas常用函数详解 - Python技术站

Python pandas常用函数详解

Python pandas 常用函数详解

数据导入

read_csv()

read_excel()