当数据集中的某些列存在缺失值时,我们可以使用pandas库中的fillna()方法来填充缺失值。
把缺失值用指定值填充:
import pandas as pd
# 创建数据集
data = {'A': [1, 2, 3, None, 5, 6],
'B': [1, 2, None, 4, None, 6],
'C': [1, 2, 3, 4, 5, 6]}
df = pd.DataFrame(data)
# 用固定值0对A列中的缺失值进行填充
df['A'].fillna(value=0, inplace=True)
print(df)
第8行代码执行了fillna()方法,将A列中的缺失值用0进行了填充。在该方法中,使用了两个参数:value代表用于填充的值,inplace代表是否在原数据集上进行修改。
输出:
A B C
0 1.0 1.0 1
1 2.0 2.0 2
2 3.0 NaN 3
3 0.0 4.0 4
4 5.0 NaN 5
5 6.0 6.0 6
把缺失值用均值填充:
import pandas as pd
# 创建数据集
data = {'A': [1, 2, 3, None, 5, 6],
'B': [1, 2, None, 4, None, 6],
'C': [1, 2, 3, 4, 5, 6]}
df = pd.DataFrame(data)
# 用A列的均值对B列中的缺失值进行填充
df['B'].fillna(value=df['A'].mean(), inplace=True)
print(df)
第8行代码执行了fillna()方法,将B列中的缺失值用A列均值进行了填充。在该方法中,使用了两个参数:value代表用于填充的值,inplace代表是否在原数据集上进行修改。
输出:
A B C
0 1.0 1.000000 1
1 2.0 2.000000 2
2 3.0 2.333333 3
3 NaN 2.333333 4
4 5.0 2.333333 5
5 6.0 6.000000 6
在这个示例中,我们首先计算了A列的均值,然后将B列中的缺失值用A列均值进行填充。
本站文章如无特殊说明,均为本站原创,如若转载,请注明出处:pandas对指定列进行填充的方法 - Python技术站