详解pandas.DataFrame.drop_duplicates()(删除重复行)函数使用方法

yizhihongxing

pandas.DataFrame.drop_duplicates() 是 pandas 中常用的数据清洗方法,用于从 DataFrame 中删除重复行。

具体作用是去除 DataFrame 中重复的行,并返回去除后的新 DataFrame。同时,它还可以指定哪些列用于判断重复行,以及判断重复行时的行为。

使用方法:

pandas.DataFrame.drop_duplicates(subset=None, keep='first', inplace=False)

其中,参数说明:

  • subset:可选参数,指定哪些列用于判断是否为重复行,默认是所有列
  • keep:可选参数,指定重复行哪些要保留,默认是保留第一个出现的
  • inplace:可选参数,是否直接对原 DataFrame 进行修改,默认是不修改,返回新的 DataFrame

下面提供两个实例:

实例1

对于以下的 DataFrame,我们想要去除重复的行:

import pandas as pd

df = pd.DataFrame({'A': [1, 2, 2, 3],
                   'B': ['apple', 'banana', 'cherry', 'cherry']})
print(df)

输出结果:

   A       B
0  1   apple
1  2  banana
2  2  cherry
3  3  cherry

我们可以使用 drop_duplicates() 方法去除重复行:

df2 = df.drop_duplicates()
print(df2)

输出结果:

   A       B
0  1   apple
1  2  banana
2  2  cherry
3  3  cherry

我们可以看到,第二行和第三行的 A 和 B 列均与第三行相同,所以第二行被删除了,其他行被保留。

实例2

对于以下的 DataFrame,我们想要去除重复的行,并指定只对 A 列判断是否为重复行:

import pandas as pd

df = pd.DataFrame({'A': [1, 2, 2, 3],
                   'B': ['apple', 'banana', 'cherry', 'cherry']})
print(df)

输出结果:

   A       B
0  1   apple
1  2  banana
2  2  cherry
3  3  cherry

我们可以使用 drop_duplicates() 方法去除重复行,并指定 subset 参数:

df2 = df.drop_duplicates(subset=['A'])
print(df2)

输出结果:

   A       B
0  1   apple
1  2  banana
3  3  cherry

我们可以看到,第二行和第三行的 A 列均为 2,所以第三行被删除了,其他行被保留。

本站文章如无特殊说明,均为本站原创,如若转载,请注明出处:详解pandas.DataFrame.drop_duplicates()(删除重复行)函数使用方法 - Python技术站

(1)
上一篇 2023年3月22日
下一篇 2023年3月22日

相关文章

  • 详解pandas.Series.str.extract()(提取序列中的字符串)函数使用方法

    pandas.Series.str.extract()是pandas库中Series类型中的一个方法,主要用于提取符合正则表达式模式的字符串,并返回新的DataFrame类型。它的主要作用是从Series中提取出符合特定模式的字符串,并将其保存到新的列中。 语法 pandas.Series.str.extract(pat) 第一个参数pat是正则表达式,指定…

    Pandas函数大全 2023年3月22日
    00
  • 详解pandas.DataFrame.cov()(计算数据框协方差)函数使用方法

    作用介绍 pandas.DataFrame.cov()是pandas.DataFrame类中的一个方法,用于计算DataFrame数据集中各列之间的协方差矩阵。 协方差矩阵是用于衡量两个随机变量之间相关性的一个指标,其值越大表示两个变量相关性越强,其值为负则表示两个变量呈反相关性。 使用方法 pandas.DataFrame.cov()方法的语法为: Dat…

    Pandas函数大全 2023年3月22日
    00
  • 详解pandas.DataFrame.drop()(删除行或列)函数使用方法

    pandas.DataFrame.drop函数是一种用于从数据框中删除给定坐标轴上的行或列的方法。它可以用于删除指定标签的行或列,并返回新的数据框。 语法格式 在Python中,可以使用以下语法来使用DataFrame.drop()函数: DataFrame.drop(labels=None, axis=0, index=None, columns=None…

    Pandas函数大全 2023年3月22日
    00
  • 详解pandas.map()(映射数值)函数使用方法

    pandas.map()函数是对Series中的每个元素执行相同的映射/转换操作的方法,其主要作用是对Series中的每个元素进行映射转换,返回一个新的Series对象。 pandas.map()函数的语法如下: DataFrame.map(arg, na_action=None) 其中,参数arg可以是一个函数、字典或Series,用来指定转换方法。na_…

    Pandas函数大全 2023年3月22日
    00
  • 详解pandas.read_csv()(读取CSV文件)函数使用方法

    pandas.read_csv()是pandas库中一个用于读取csv文件的函数,其作用是将csv文件中的数据读入到一个pandas的DataFrame数据结构中,便于后续的数据处理和分析。 pandas.read_csv()函数的常用参数有以下几个: filepath_or_buffer:csv文件路径或者url地址,可以是本地文件路径,也可以是在线的ur…

    Pandas函数大全 2023年3月22日
    00
  • 详解pandas.DataFrame.to_csv()(将数据框写入CSV文件)函数使用方法

    pandas.DataFrame.to_csv() 是 pandas 库中 DataFrame 类的一个方法,用于将 DataFrame 数据写入到一个 CSV 文件中。其作用是将 DataFrame 数组保存到 CSV 文件中,以供后续使用。下面是 to_csv() 的使用方法的详细攻略。 语法 DataFrame.to_csv(self, path_or…

    Pandas函数大全 2023年3月22日
    00
  • 详解pandas.DataFrame.plot()(绘制数据框图表)函数使用方法

    pandas.DataFrame.plot() 是 pandas 库中的一个绘图函数,它允许我们使用数据帧(DataFrame)中的数据绘制各种类型的图表。使用 plot 函数可以帮助我们更直观地了解数据的分布、趋势和关系。 使用方法: pandas.DataFrame.plot(kind=None, x=None, y=None, figsize=None…

    2023年3月22日
    00
  • 详解pandas.duplicated()(检测重复值)函数使用方法

    pandas.duplicated()是Pandas库中的一个函数,用于查找和标记重复值。它返回一个布尔值的数组,指示每个元素是否为重复项。 使用方法 语法: pandas.duplicated(subset=None, keep=’first’) 参数: subset: 可选,用于标识重复项的列名或列名列表。默认情况下,它比较整个行。 keep: 可选,标…

    Pandas函数大全 2023年3月22日
    00
合作推广
合作推广
分享本页
返回顶部