详解pandas.DataFrame.drop_duplicates()（删除重复行）函数使用方法

2023年3月22日下午6:59 • Pandas函数大全

yizhihongxing

pandas.DataFrame.drop_duplicates() 是 pandas 中常用的数据清洗方法，用于从 DataFrame 中删除重复行。

具体作用是去除 DataFrame 中重复的行，并返回去除后的新 DataFrame。同时，它还可以指定哪些列用于判断重复行，以及判断重复行时的行为。

使用方法：

pandas.DataFrame.drop_duplicates(subset=None, keep='first', inplace=False)

其中，参数说明：

subset：可选参数，指定哪些列用于判断是否为重复行，默认是所有列
keep：可选参数，指定重复行哪些要保留，默认是保留第一个出现的
inplace：可选参数，是否直接对原 DataFrame 进行修改，默认是不修改，返回新的 DataFrame

下面提供两个实例：

实例1

对于以下的 DataFrame，我们想要去除重复的行：

import pandas as pd

df = pd.DataFrame({'A': [1, 2, 2, 3],
                   'B': ['apple', 'banana', 'cherry', 'cherry']})
print(df)

输出结果：

   A       B
0  1   apple
1  2  banana
2  2  cherry
3  3  cherry

我们可以使用 drop_duplicates() 方法去除重复行：

df2 = df.drop_duplicates()
print(df2)

输出结果：

   A       B
0  1   apple
1  2  banana
2  2  cherry
3  3  cherry

我们可以看到，第二行和第三行的 A 和 B 列均与第三行相同，所以第二行被删除了，其他行被保留。

实例2

对于以下的 DataFrame，我们想要去除重复的行，并指定只对 A 列判断是否为重复行：

import pandas as pd

df = pd.DataFrame({'A': [1, 2, 2, 3],
                   'B': ['apple', 'banana', 'cherry', 'cherry']})
print(df)

输出结果：

   A       B
0  1   apple
1  2  banana
2  2  cherry
3  3  cherry

我们可以使用 drop_duplicates() 方法去除重复行，并指定 subset 参数：

df2 = df.drop_duplicates(subset=['A'])
print(df2)

输出结果：

   A       B
0  1   apple
1  2  banana
3  3  cherry

我们可以看到，第二行和第三行的 A 列均为 2，所以第三行被删除了，其他行被保留。

本站文章如无特殊说明，均为本站原创，如若转载，请注明出处：详解pandas.DataFrame.drop_duplicates()（删除重复行）函数使用方法 - Python技术站

pandas-function

赞 (1)

微信扫一扫

微信扫一扫

支付宝扫一扫

支付宝扫一扫

详解pandas.DataFrame.to_excel()（将数据框写入Excel文件）函数使用方法

上一篇 2023年3月22日

详解pandas.to_datetime()（转换为日期时间格式）函数使用方法

下一篇 2023年3月22日

详解pandas.Series.str.extract()（提取序列中的字符串）函数使用方法

pandas.Series.str.extract()是pandas库中Series类型中的一个方法，主要用于提取符合正则表达式模式的字符串，并返回新的DataFrame类型。它的主要作用是从Series中提取出符合特定模式的字符串，并将其保存到新的列中。语法 pandas.Series.str.extract(pat) 第一个参数pat是正则表达式，指定…

Pandas函数大全 2023年3月22日
000
详解pandas.DataFrame.cov()（计算数据框协方差）函数使用方法

作用介绍 pandas.DataFrame.cov()是pandas.DataFrame类中的一个方法，用于计算DataFrame数据集中各列之间的协方差矩阵。协方差矩阵是用于衡量两个随机变量之间相关性的一个指标，其值越大表示两个变量相关性越强，其值为负则表示两个变量呈反相关性。使用方法 pandas.DataFrame.cov()方法的语法为： Dat…

Pandas函数大全 2023年3月22日
001
详解pandas.DataFrame.drop()（删除行或列）函数使用方法

pandas.DataFrame.drop函数是一种用于从数据框中删除给定坐标轴上的行或列的方法。它可以用于删除指定标签的行或列，并返回新的数据框。语法格式在Python中，可以使用以下语法来使用DataFrame.drop()函数： DataFrame.drop(labels=None, axis=0, index=None, columns=None…

Pandas函数大全 2023年3月22日
004
详解pandas.map()（映射数值）函数使用方法

pandas.map()函数是对Series中的每个元素执行相同的映射/转换操作的方法，其主要作用是对Series中的每个元素进行映射转换，返回一个新的Series对象。 pandas.map()函数的语法如下： DataFrame.map(arg, na_action=None) 其中，参数arg可以是一个函数、字典或Series，用来指定转换方法。na_…

Pandas函数大全 2023年3月22日
002
详解pandas.read_csv()（读取CSV文件）函数使用方法

pandas.read_csv()是pandas库中一个用于读取csv文件的函数，其作用是将csv文件中的数据读入到一个pandas的DataFrame数据结构中，便于后续的数据处理和分析。 pandas.read_csv()函数的常用参数有以下几个： filepath_or_buffer：csv文件路径或者url地址，可以是本地文件路径，也可以是在线的ur…

Pandas函数大全 2023年3月22日
003
详解pandas.DataFrame.to_csv()（将数据框写入CSV文件）函数使用方法

pandas.DataFrame.to_csv() 是 pandas 库中 DataFrame 类的一个方法，用于将 DataFrame 数据写入到一个 CSV 文件中。其作用是将 DataFrame 数组保存到 CSV 文件中，以供后续使用。下面是 to_csv() 的使用方法的详细攻略。语法 DataFrame.to_csv(self, path_or…

Pandas函数大全 2023年3月22日
000
Pandas函数大全

详解pandas.DataFrame.plot()（绘制数据框图表）函数使用方法

pandas.DataFrame.plot() 是 pandas 库中的一个绘图函数，它允许我们使用数据帧（DataFrame）中的数据绘制各种类型的图表。使用 plot 函数可以帮助我们更直观地了解数据的分布、趋势和关系。使用方法： pandas.DataFrame.plot(kind=None, x=None, y=None, figsize=None…

2023年3月22日
001
详解pandas.duplicated()（检测重复值）函数使用方法

pandas.duplicated()是Pandas库中的一个函数，用于查找和标记重复值。它返回一个布尔值的数组，指示每个元素是否为重复项。使用方法语法： pandas.duplicated(subset=None, keep=’first’) 参数： subset: 可选，用于标识重复项的列名或列名列表。默认情况下，它比较整个行。 keep: 可选，标…

Pandas函数大全 2023年3月22日
002

合作推广

合作推广

返回顶部