下面是“Pandas缺失值2种处理方式代码实例”的完整攻略。
简介
在数据分析和处理中,缺失值是很常见的情况。Pandas提供了多种方法来处理缺失值,本文将重点讲解两种常用的处理方式:删除缺失值和填充缺失值,并提供对应的代码实例。
删除缺失值
删除缺失值是处理缺失值最简单快捷的方法,但前提是缺失值占比不能过大。对于占比过大的缺失值,删除会导致数据量减少,可能会影响后续的分析和建模。
使用Pandas库的dropna()函数可以删除缺失值。下面是一个简单的代码示例:
import pandas as pd
data = {"A": [1, 2, 3, None, 5, 6], "B": [None, 8, 9, 10, None, 12], "C": [13, 14, 15, 16, 17, None]}
df = pd.DataFrame(data)
# 删除缺失值
df = df.dropna()
print(df)
上述代码中,我们使用DataFrame()函数创建了一个包含三列数据的DataFrame,其中包含了若干缺失值。接下来我们使用dropna()函数删除所有含有缺失值的行。运行程序后,输出结果如下:
A B C
0 1.0 2.0 13.0
在这个例子中,我们删除了所有含有缺失值的行,对应的第1、4、5、6行数据被删除。
填充缺失值
除了删除缺失值,我们也可以采用填充缺失值的方法来处理缺失值。填充缺失值可以保留全部数据,避免数据的缩水,但需要根据具体情况决定填充值。一般来说,可以用缺失值前或后的值进行填充,也可以用统计值(如均值、中位数、众数)进行填充。
使用fillna()函数可以填充缺失值。下面是一个简单的代码示例:
import pandas as pd
data = {"A": [1, 2, 3, None, 5, 6], "B": [None, 8, 9, 10, None, 12], "C": [13, 14, 15, 16, 17, None]}
df = pd.DataFrame(data)
# 填充缺失值
df = df.fillna(method="ffill")
print(df)
上述代码中,我们同样使用DataFrame()函数创建了一个包含三列数据的DataFrame,其中包含了若干缺失值。接下来我们使用fillna()函数对缺失值进行填充,采用的方法是用缺失值前一个非缺失值进行填充(即“向前填充”)。运行程序后,输出结果如下:
A B C
0 1.0 NaN 13.0
1 2.0 8.0 14.0
2 3.0 9.0 15.0
3 3.0 10.0 16.0
4 5.0 10.0 17.0
5 6.0 12.0 17.0
在这个例子中,我们用“向前填充”的方式填充了含有缺失值的DataFrame,对应的第1行的B列缺失值被填充为None前面的值。
本站文章如无特殊说明,均为本站原创,如若转载,请注明出处:Pandas缺失值2种处理方式代码实例 - Python技术站