Python中pandas常用命令详解
什么是Pandas
Pandas是基于Numpy的一个数据分析处理库,是专门为了解决数据分析任务而创建的。相比于Numpy同样能处理数值数据的数组和矩阵,Pandas可处理统计数据,序列等非数值数据。
Pandas的优势
- 它能为我们扩展时间序列的功能,处理常用的金融和统计数据。
- 提供了运算效率高的data frame数据结构,是一种相当高效的数据结构。
- 能够灵活地处理不同格式的数据文件,包括CSV, Excel, SQL Database等。
Pandas 常用命令
1. 数据读入读出
读入数据:
使用read_csv
方法可以将CSV文件读入数据框中。
import pandas as pd
df = pd.read_csv('data.csv')
print(df.head())
其中head()
函数是显示前5行数据。
读出数据
将数据框输出为csv文件:
df.to_csv('output.csv', index=False, encoding='utf-8')
其中,index=False
表示不要将行索引输出,encoding='utf-8'
可以避免中文乱码问题。
2. 描述性统计
求和:
使用sum()
方法可以求出每列的和:
df.sum()
平均值:
使用mean()
方法可以求出每列的平均值:
df.mean()
3. 数据选择和操作
选择列:
可以使用[ ]
操作符,列出要选择的列名,返回选择的列。
df[['列名1', '列名2']]
选择行:
选择前两行:
df.iloc[:2,:]
过滤:
使用条件过滤可以实现数据筛选。
df[df['列名1']>5]
选择列名“列名1”大于5的行。
4. 缺失值处理
检查缺失值:
使用isnull()
方法可以检查数据框缺失值情况。返回True表示该值缺失,返回False表示该值存在。
df.isnull()
填充缺失值:
使用fillna()
方法能够将缺失值用指定的值进行填充。
df.fillna(0)
这将把空值填充为0。
示例
以下是一组展示Pandas如何读入数据并进行数据选取操作的代码:
import pandas as pd
df = pd.read_csv('Data.csv')
print(df.head())
print(df.iloc[:,1:3])
其中,read_csv
方法可以读入CSV格式数据文件。head()
方法可以返回前2行数据。iloc
方法选择列索引1到3所在列。
总结
本文介绍了Pandas的优势和一些常用的命令,包括数据读入读出、描述性统计、数据选择和操作、缺失值处理。这些命令可以使数据分析和处理更加快捷和方便。
本站文章如无特殊说明,均为本站原创,如若转载,请注明出处:python中pandas常用命令详解 - Python技术站