Python中pandas常用命令详解

什么是Pandas

Pandas是基于Numpy的一个数据分析处理库，是专门为了解决数据分析任务而创建的。相比于Numpy同样能处理数值数据的数组和矩阵，Pandas可处理统计数据，序列等非数值数据。

Pandas的优势

它能为我们扩展时间序列的功能，处理常用的金融和统计数据。
提供了运算效率高的data frame数据结构，是一种相当高效的数据结构。
能够灵活地处理不同格式的数据文件，包括CSV, Excel, SQL Database等。

Pandas 常用命令

1. 数据读入读出

读入数据：

使用read_csv方法可以将CSV文件读入数据框中。

import pandas as pd
df = pd.read_csv('data.csv')
print(df.head())

其中head()函数是显示前5行数据。

读出数据

将数据框输出为csv文件：

df.to_csv('output.csv', index=False, encoding='utf-8')

其中，index=False表示不要将行索引输出，encoding='utf-8'可以避免中文乱码问题。

2. 描述性统计

求和：

使用sum()方法可以求出每列的和：

df.sum()

平均值：

使用mean()方法可以求出每列的平均值：

df.mean()

3. 数据选择和操作

选择列：

可以使用[ ]操作符，列出要选择的列名，返回选择的列。

df[['列名1', '列名2']]

选择行：

选择前两行：

df.iloc[:2,:]

过滤：

使用条件过滤可以实现数据筛选。

df[df['列名1']>5]

选择列名“列名1”大于5的行。

4. 缺失值处理

检查缺失值：

使用isnull()方法可以检查数据框缺失值情况。返回True表示该值缺失，返回False表示该值存在。

df.isnull()

填充缺失值：

使用fillna()方法能够将缺失值用指定的值进行填充。

df.fillna(0)

这将把空值填充为0。

示例

以下是一组展示Pandas如何读入数据并进行数据选取操作的代码：

import pandas as pd
df = pd.read_csv('Data.csv')
print(df.head())
print(df.iloc[:,1:3])

其中，read_csv方法可以读入CSV格式数据文件。head()方法可以返回前2行数据。iloc方法选择列索引1到3所在列。

总结

本文介绍了Pandas的优势和一些常用的命令，包括数据读入读出、描述性统计、数据选择和操作、缺失值处理。这些命令可以使数据分析和处理更加快捷和方便。

本站文章如无特殊说明，均为本站原创，如若转载，请注明出处：python中pandas常用命令详解 - Python技术站

python中pandas常用命令详解