Pandas中标记删除重复记录的方法主要是通过drop_duplicates
函数来实现,该函数可以去除DataFrame对象中的重复行,有以下几个常用参数:
subset
: 指定需要检查重复值的列。keep
: 取值可为first
,last
,False
,表示在去除重复值时保留哪一个(第一个,最后一个或全删除)。inplace
: 取值可为 True 或 False,表示是否在原DataFrame上进行修改,当 inplace=True 时,返回 None,否则将返回一个新的 DataFrame。
示例代码如下所示:
import pandas as pd
# 模拟数据
df = pd.DataFrame({
'城市': ['北京', '上海', '北京', '广州', '上海', '深圳'],
'销售额': [1000, 2000, 1000, 3000, 2000, 4000]
})
# 标记删除重复记录
df.drop_duplicates(subset=['城市'], keep='first', inplace=True)
# 输出结果
print(df)
输出如下:
城市 销售额
0 北京 1000
1 上海 2000
3 广州 3000
5 深圳 4000
下面是另一个示例,该示例中只保留销售额最高的记录:
import pandas as pd
# 模拟数据
df = pd.DataFrame({
'城市': ['北京', '上海', '北京', '广州', '上海', '深圳'],
'销售额': [1000, 2000, 1000, 3000, 2000, 4000]
})
# 标记删除重复记录
df.drop_duplicates(subset=['城市'], keep='last', inplace=True)
# 输出结果
print(df)
输出如下:
城市 销售额
2 北京 1000
4 上海 2000
3 广州 3000
5 深圳 4000
这两个示例展示了 drop_duplicates
函数的不同方式,可以根据实际情况选取适合的参数进行操作。
本站文章如无特殊说明,均为本站原创,如若转载,请注明出处:Pandas标记删除重复记录的方法 - Python技术站