Python pandas 常用函数详解
Python pandas 是一个用于数据分析的强大工具,提供了丰富的函数和方法用以处理数据。本文将详细讲解 pandas 中常用的函数,包括数据导入、索引与选择、数据处理、数据排序和数据统计等。
数据导入
pandas 提供了方便的数据导入功能,支持导入多种格式的数据,如 csv、Excel 或 SQL 数据库等。常用的函数有 read_csv、read_excel 和 read_sql。
read_csv()
import pandas as pd
df = pd.read_csv('data.csv')
print(df.head())
read_csv 函数将 csv 文件导入为一个 DataFrame 对象。上述代码读取名为 data.csv 的文件并输出前五行数据。read_csv 有很多可选参数,如 sep、header 和 index_col 等,可根据不同的数据设置不同的参数。
read_excel()
import pandas as pd
df = pd.read_excel('data.xlsx')
print(df.head())
类似于 read_csv,read_excel 函数也将数据读取为一个 DataFrame 对象,只不过读取的是 Excel 文件。可以通过设置参数来控制读取 Excel 的不同 sheet 或者选择需要读取的列数等等。
索引与选择
DataFrame 对象可以通过各种索引和切片方式进行数据选取和查找。以下是几种常用的索引方式:
位置索引
import pandas as pd
df = pd.read_csv('data.csv')
print(df.iloc[0]) # 输出第一行
iloc 是基于整数位置的索引方式,可以通过传入行号和列号来定位数据。
标签索引
import pandas as pd
df = pd.read_csv('data.csv', index_col='ID')
print(df.loc['001']) # 输出 ID 为 '001' 的行
loc 是基于标签名的索引方式,可以通过传入列名和行名来定位数据,其中 index_col 参数可以用于指定使用哪一列作为索引列。
数据处理
数据处理是 pandas 中非常重要的一部分,其中包括数据清洗、数据变换、数据合并等等。下面是几个常用的函数和方法:
drop_duplicates()
import pandas as pd
df = pd.read_csv('data.csv')
df = df.drop_duplicates()
drop_duplicates 可以用于删除 DataFrame 中的重复行。默认情况下,drop_duplicates 函数会保留第一个重复行,并删除其余的重复行,也可以通过设置 keep 参数来指定保留最后一个重复行。
groupby()
import pandas as pd
df = pd.read_csv('data.csv')
grouped = df.groupby('Type')
print(grouped['Sales'].sum())
groupby 是基于某些列的值对 DataFrame 进行分组操作,可以进行分组运算、聚合、转换等等。上述代码按照 Type 列对 DataFrame 进行分组,并计算每个组的 Sales 值之和。
数据排序
排序是数据分析中必不可少的操作,pandas 中提供了 sort_values 函数和 sort_index 函数用于对 DataFrame 对象进行排序操作。
sort_values()
import pandas as pd
df = pd.read_csv('data.csv')
df.sort_values(by=['Sales'], inplace=True)
print(df.head())
sort_values 可以按照指定列的值进行排序,其中 by 参数可以指定按照哪些列进行排序,inplace 参数可以指定是否对原 DataFrame 进行修改。
sort_index()
import pandas as pd
df = pd.read_csv('data.csv', index_col='ID')
df.sort_index(inplace=True)
print(df.head())
sort_index 可以按照索引进行排序操作,inplace 参数同样可以指定是否对原 DataFrame 进行修改。
数据统计
数据统计是数据分析中不可或缺的一环,pandas 中提供了许多统计函数进行数据分析,如 sum、mean、max、min 等等。
import pandas as pd
df = pd.read_csv('data.csv')
print(df['Sales'].sum()) # 计算 Sales 列的总和
print(df.describe()) # 对 DataFrame 进行描述性统计
上述代码分别计算了 Sales 列的总和和对 DataFrame 进行描述性统计,其余的统计函数在使用时也非常简单,只需要将统计函数作用于 DataFrame 对象的列即可。
以上就是 Python pandas 常用函数详解的完整攻略,其中包括数据导入、索引与选择、数据处理、数据排序和数据统计等方面。通过学习这些常用函数和示例代码,可以更好地掌握 pandas 的应用。
本站文章如无特殊说明,均为本站原创,如若转载,请注明出处:Python pandas常用函数详解 - Python技术站