在Pandas中处理缺失的数据

2023年3月27日下午3:26 • python-answer

在Pandas中，处理缺失的数据是一个常见的任务，主要有以下几种处理方式：

删除缺失数据
填充缺失数据
插值缺失数据

下面我们分别介绍这三种处理方式的使用方法和具体实例。

1. 删除缺失数据

要删除缺失数据，可以使用 dropna() 方法。该方法默认丢弃任何缺失值，可以通过选项进行修改。

import pandas as pd
import numpy as np

# 示例数据
data = pd.DataFrame({'A': [1, 2, np.nan, 4], 'B': [5, np.nan, 7, 8], 'C': [9, 10, 11, np.nan]})

# 删除任何包含缺失值的行
clean_data = data.dropna()

print(clean_data)

输出结果如下：

     A    B     C
0  1.0  5.0   9.0

在上面的代码中，dropna() 方法会删除任何包含缺失值的行，因此只剩下了第一行数据。

另外，我们还可以增加 axis 选项来控制删除操作的方向。默认情况下， axis 的值为 0，表示删除行。改为 1 可以删除所有包含缺失值的列：

import pandas as pd
import numpy as np

# 示例数据
data = pd.DataFrame({'A': [1, 2, np.nan, 4], 'B': [5, np.nan, 7, 8], 'C': [9, 10, 11, np.nan]})

# 删除任何包含缺失值的列
clean_data = data.dropna(axis=1)

print(clean_data)

输出结果如下：

Empty DataFrame
Columns: []
Index: [0, 1, 2, 3]

在上面的代码中，我们指定了 axis = 1，结果所有包含缺失值的列都被删除。

2. 填充缺失数据

如果不想删除缺失数据，可以使用 fillna() 方法来填充数据。该方法允许使用指定的值来填充缺失值。

import pandas as pd
import numpy as np

# 示例数据
data = pd.DataFrame({'A': [1, 2, np.nan, 4], 'B': [5, np.nan, 7, 8], 'C': [9, 10, 11, np.nan]})

# 用 0 填充缺失值
clean_data = data.fillna(0)

print(clean_data)

输出结果如下：

     A    B     C
0  1.0  5.0   9.0
1  2.0  0.0  10.0
2  0.0  7.0  11.0
3  4.0  8.0   0.0

在上面的代码中，fillna() 方法会将所有缺失值替换为指定的值（这里是 0）。

另外还可以提供一个字典，使用不同的值填充不同的列：

import pandas as pd
import numpy as np

# 示例数据
data = pd.DataFrame({'A': [1, 2, np.nan, 4], 'B': [5, np.nan, 7, 8], 'C': [9, 10, 11, np.nan]})

# 填充缺失值
fill_values = {'A': 0, 'B': 1, 'C': 2}
clean_data = data.fillna(fill_values)

print(clean_data)

输出结果如下：

     A    B     C
0  1.0  5.0   9.0
1  2.0  1.0  10.0
2  0.0  7.0  11.0
3  4.0  8.0   2.0

在上面的代码中，我们指定了一个字典，对不同的列使用了不同的值进行填充。

3. 插值缺失数据

最后，如果想要使用插值方法来填充缺失值，可以使用 interpolate() 方法。

import pandas as pd
import numpy as np

# 示例数据
data = pd.DataFrame({'A': [1, 2, np.nan, 4], 'B': [5, np.nan, 7, 8], 'C': [9, 10, 11, np.nan]})

# 插值缺失值
clean_data = data.interpolate()

print(clean_data)

输出结果如下：

     A    B     C
0  1.0  5.0   9.0
1  2.0  6.0  10.0
2  3.0  7.0  11.0
3  4.0  8.0  11.0

在上面的代码中，interpolate() 方法计算出缺失值的近似值，并填充缺失值。

需要说明的是，Pandas 中提供了多种插值方法，可以通过 method 参数来指定使用哪一种方法。例如：

import pandas as pd
import numpy as np

# 示例数据
data = pd.DataFrame({'A': [1, 2, np.nan, 4], 'B': [5, np.nan, 7, 8], 'C': [9, 10, 11, np.nan]})

# 使用指定方法插值缺失值
clean_data = data.interpolate(method='linear')

print(clean_data)

输出结果与上面的代码相同。