pd.drop_duplicates删除重复行的方法实现
如果你在数据处理的过程中遇到了重复的行,那么你可以使用pd.drop_duplicates()
方法来删除这些行。
语法格式
DataFrame.drop_duplicates([subset=None, keep='first', inplace=False])
参数说明:
subset
:用来指定需要判断重复的列,默认值为所有列;keep
:确定哪一个重复行被保留,默认为'first'
即保留第一个,可选值为'last'
即保留最后一个,或者False
即删除所有重复行;inplace
: 符号用于指示原始对象是否应就地更改。默认为False
即不修改原始数据,而是返回删除重复行后的副本。
示例1
假设我们有以下数据集:
import pandas as pd
data = {'name': ['John', 'John', 'Sarah', 'Tom', 'Tom', 'Jane'],
'age': [30, 30, 25, 20, 20, 28],
'gender': ['M', 'M', 'F', 'M', 'M', 'F']}
df = pd.DataFrame(data)
print("原始数据集:\n", df)
输出结果:
原始数据集:
name age gender
0 John 30 M
1 John 30 M
2 Sarah 25 F
3 Tom 20 M
4 Tom 20 M
5 Jane 28 F
要删除重复行,只需要用drop_duplicates()
方法即可:
df.drop_duplicates(inplace=True)
print("删除重复行后的数据集:\n", df)
输出结果:
删除重复行后的数据集:
name age gender
0 John 30 M
2 Sarah 25 F
3 Tom 20 M
5 Jane 28 F
示例2
除了默认情况下删除所有重复行之外,您还可以按特定列删除重复行。在下面的例子中,将根据“name”列删除重复项:
df.drop_duplicates(subset=['name'], keep='first', inplace=True)
print("删除'name'列中重复行后的数据集:\n", df)
输出结果:
删除'name'列中重复行后的数据集:
name age gender
0 John 30 M
2 Sarah 25 F
3 Tom 20 M
5 Jane 28 F
本站文章如无特殊说明,均为本站原创,如若转载,请注明出处:pd.drop_duplicates删除重复行的方法实现 - Python技术站