Pandas 同元素多列去重的实例

下面是“Pandas 同元素多列去重的实例”的完整攻略。

问题

在 Pandas 数据分析中，我们常常需要对 DataFrame 进行去重的操作。常见情况是，存在多列元素相同的重复行，需要同时对多列进行去重。那么如何实现 Pandas 同元素多列去重呢？

解决方案

对于 Pandas DataFrame，可以使用 drop_duplicates 方法进行去重操作。该方法的默认行为是对所有列进行去重，只保留第一个出现的值。但是这种默认的去重方法无法满足同元素多列去重的需求。下面介绍两种不同的方法实现该功能。

方法一：指定列

可以通过 drop_duplicates 方法的 subset 参数指定列名来进行同元素多列去重，示例如下：

import pandas as pd

# 创建数据
data = pd.DataFrame({
    'name': ['Tom', 'Bob', 'Tom', 'Bob'],
    'age': [18, 19, 18, 19],
    'gender': ['male', 'male', 'female', 'male']})

# 指定列进行去重
dedup_data = data.drop_duplicates(subset=['name', 'age'])

print('去重前数据：')
print(data)
print()
print('去重后数据：')
print(dedup_data)

输出结果如下：

去重前数据：
  name  age  gender
0  Tom   18    male
1  Bob   19    male
2  Tom   18  female
3  Bob   19    male

去重后数据：
  name  age  gender
0  Tom   18    male
1  Bob   19    male

在上述示例中，我们通过 subset 参数指定了 name 和 age 两列进行去重，得到了去重后的结果。

方法二：排序后去重

如果使用指定列名的方法无法满足需求，我们可以将 DataFrame 排序后再进行去重。排序可以保证同元素的行都是相邻的，从而方便进行去重操作。示例代码如下：

import pandas as pd

# 创建数据
data = pd.DataFrame({
    'name': ['Tom', 'Bob', 'Tom', 'Bob'],
    'age': [18, 19, 18, 19],
    'gender': ['male', 'male', 'female', 'male']})

# 按指定列进行排序
sorted_data = data.sort_values(by=['name', 'age'])

# 进行排序后的去重操作
dedup_data = sorted_data.drop_duplicates()

print('去重前数据：')
print(data)
print()
print('排序后数据：')
print(sorted_data)
print()
print('去重后数据：')
print(dedup_data)

输出结果如下：

去重前数据：
  name  age  gender
0  Tom   18    male
1  Bob   19    male
2  Tom   18  female
3  Bob   19    male

排序后数据：
  name  age  gender
1  Bob   19    male
3  Bob   19    male
0  Tom   18    male
2  Tom   18  female

去重后数据：
  name  age  gender
1  Bob   19    male
0  Tom   18    male

在上述示例中，我们先按照 name 和 age 进行排序，然后再进行去重操作，得到了去重后的结果。

总结

针对同元素多列去重的需求，我们可以使用 Pandas 的 drop_duplicates 方法结合 subset 参数或者排序操作实现。这两种方法各有优劣，具体使用时可以根据实际情况选择。

本站文章如无特殊说明，均为本站原创，如若转载，请注明出处：Pandas 同元素多列去重的实例 - Python技术站

Pandas 同元素多列去重的实例

问题

解决方案

方法一：指定列

方法二：排序后去重

总结

相关文章