pandas.DataFrame.drop_duplicates用法介绍
介绍
pandas.DataFrame.drop_duplicates()方法返回一个DataFrame,其中包含DataFrame重复行的条目。在数据处理中,通常需要删除重复的行,以保证数据的一致性和准确性。
语法
DataFrame.drop_duplicates(subset=None, keep='first', inplace=False, ignore_index=False)
参数说明:
- subset
: 指定要考虑的列,在这些列中,如果存在重复,则删除重复行。
- keep
: 指定保留哪一个重复行。可选值为:'first', 'last', False。
- 'first': 保留第一次出现的重复行。
- 'last': 保留最后一次出现的重复行。
- False: 删除所有的重复行。
- inplace
: 是否就地修改原始DataFrame,默认为False,即不修改原始DataFrame,而是返回一个新的DataFrame。
- ignore_index
: 重新编号标记,若为True,将在返回的DataFrame中进行重新编号,否则将保留原始行号标记。默认为False。
示例
示例1:删除所有重复行
假设我们有如下数据:
A B C
0 1 2 3
1 1 2 3
2 4 5 6
3 4 5 6
我们可以使用以下代码删除所有的重复行:
import pandas as pd
# 创建DataFrame
data = {'A': [1, 1, 4, 4], 'B': [2, 2, 5, 5], 'C': [3, 3, 6, 6]}
df = pd.DataFrame(data)
# 删除所有重复行
df.drop_duplicates(keep=False, inplace=True)
print(df)
输出结果为:
Empty DataFrame
Columns: [A, B, C]
Index: []
示例2:删除特定列中的重复行
假设我们有如下数据:
A B C
0 1 2 3
1 1 2 4
2 4 5 6
3 4 7 6
我们可以使用以下代码删除B列中的重复行:
import pandas as pd
# 创建DataFrame
data = {'A': [1, 1, 4, 4], 'B': [2, 2, 5, 7], 'C': [3, 4, 6, 6]}
df = pd.DataFrame(data)
# 删除B列中的重复行
df.drop_duplicates(subset=['B'], inplace=True)
print(df)
输出结果为:
A B C
0 1 2 3
2 4 5 6
3 4 7 6
本站文章如无特殊说明,均为本站原创,如若转载,请注明出处:pandas.DataFrame.drop_duplicates 用法介绍 - Python技术站