详解pandas.duplicated()(检测重复值)函数使用方法

yizhihongxing

pandas.duplicated()是Pandas库中的一个函数,用于查找和标记重复值。它返回一个布尔值的数组,指示每个元素是否为重复项。

使用方法

语法:

pandas.duplicated(subset=None, keep=’first’)

参数:

  • subset: 可选,用于标识重复项的列名或列名列表。默认情况下,它比较整个行。
  • keep: 可选,标记重复项的方式。如果为’first’,表示第一个出现的项不会被标记为重复;如果为’last’,则最后出现的项不会被标记为重复;如果为False,则所有重复项都会标记为True。默认为’first’。

示例1

首先需要导入Pandas库,并读入数据:

import pandas as pd
df = pd.read_csv('data.csv')

我们来看下data.csv数据文件的内容:

ID Name Age
101 John 25
102 Tom 26
103 Mary 25
104 John 25
105 Lucy 28
106 John 25

我们可以看到,其中ID为101的John、ID为104的John、以及ID为106的John出现了重复。

现在我们来使用duplicated()函数查找重复项:

df['Duplicated'] = df.duplicated(['Name', 'Age'], keep=False)

在这里,我们使用duplicated()函数,并将keep参数设置为False,即所有重复项都会被标记为True。我们还将返回的结果存储在一个新列“Duplicated”中。我们使用[‘Name’,‘Age’]来指定要查找重复项的列。

现在我们来查看查找到的重复项:

print(df[df['Duplicated']==True])

输出结果为:

    ID  Name  Age  Duplicated
0  101  John   25        True
3  104  John   25        True
5  106  John   25        True

我们可以看到,三个John的ID被标记为了True。

示例2

现在我们来看另一个示例,假设我们有一个包含学生考试成绩的数据集:

data = {'Name': ['John', 'Mary', 'Tom', 'Lucy', 'John', 'Tom', 'Mary'],
       'Maths': [89, 92, 78, 83, 89, 78, 92],
       'Physics': [92, 94, 87, 80, 92, 87, 94],
       'Chemistry': [85, 83, 82, 79, 85, 82, 83]}
df = pd.DataFrame(data)

我们可以看出,ID为1和5的学生John的考试成绩完全一样,即数学成绩都是89分,物理成绩都是92分,化学成绩都是85分。

现在我们来使用duplicated()函数查找重复项:

df['Duplicated'] = df.duplicated(['Maths', 'Physics', 'Chemistry'], keep=False)

在这里,我们使用duplicated()函数,并将keep参数设置为False,即所有重复项都会被标记为True。我们还将返回的结果存储在一个新列“Duplicated”中。我们使用[‘Maths’,‘Physics’,‘Chemistry’]来指定要查找重复项的列。

现在我们来查看查找到的重复项:

print(df[df['Duplicated']==True])

输出结果为:

     Name  Maths  Physics  Chemistry  Duplicated
0    John     89       92         85        True
4    John     89       92         85        True

我们可以看到,John的ID为1和5的行被标记为了True,因为他们的考试成绩完全一样。这可以帮助我们更轻松地查找并删除重复的数据。

本站文章如无特殊说明,均为本站原创,如若转载,请注明出处:详解pandas.duplicated()(检测重复值)函数使用方法 - Python技术站

(1)
上一篇 2023年3月22日
下一篇 2023年3月22日

相关文章

  • 详解pandas.DataFrame.describe()(计算数据框统计信息)函数使用方法

    pandas.DataFrame.describe()的作用 pandas.DataFrame.describe()函数用于生成数据集的统计描述。它返回给定数据集的主要统计量,例如平均值、标准差、最小值、最大值和四分位数等。该函数的输出格式是一个数据帧(DataFrame),它显示了每个统计量的值以及数据集中的样本数。 使用方法 pandas.DataFra…

    Pandas函数大全 2023年3月22日
    00
  • 详解pandas.DataFrame()(创建二维表格)函数使用方法

    pandas.DataFrame() 是 pandas 库中一个十分重要的函数,它用于创建数据帧对象,可以方便地对多维数组或其他数据结构中的数据进行索引、计算、筛选、合并等操作。本文将为大家详细讲解 pandas.DataFrame() 的作用与使用方法。 作用 pandas.DataFrame() 可以将数据对象转变为数据帧对象。DataFrame 是二维…

    Pandas函数大全 2023年3月22日
    00
  • 详解pandas.DataFrame.to_dict()(将数据框转换为字典)函数使用方法

    pandas.DataFrame.to_dict()函数将DataFrame转换为Python字典。字典的键是DataFrame的列名,而字典的值是由DataFrame数据中每一行构成的子字典。to_dict()函数的通用语法如下: to_dict(self, orient='dict', into=<class 'dic…

    Pandas函数大全 2023年3月22日
    00
  • 详解pandas.notnull()(检测非缺失值)函数使用方法

    pandas.notnull()的作用是从series或DataFrame中返回布尔值,表示每个值是否为非空/非NaN。 使用方法 对于series对象 import pandas as pd s = pd.Series([1, 2, None, 'hello']) print(pd.notnull(s)) 输出: 0 True 1 Tr…

    Pandas函数大全 2023年3月22日
    00
  • 详解pandas.Series.str.startswith()(检测序列中的字符串开头)函数使用方法

    pandas.Series.str.startswith()是Pandas库中的一个字符串方法,用于判断字符串是否以指定的前缀开始。该方法返回一个布尔型的Series对象,指示每个字符串是否以给定的前缀开始。 语法: Series.str.startswith(prefix, na=False) 参数说明: prefix:需要匹配的前缀,可以是字符串或字符串…

    Pandas函数大全 2023年3月22日
    00
  • 详解pandas.groupby()(按列分组)函数使用方法

    pandas.groupby()的作用 pandas.groupby()用于按照一定的条件(实际上就是指定一个或多个列)对数据集进行分组,分组后可以对各个分组做一些统计分析,如求和、平均值等。 pandas.groupby()的使用方法 创建数据集 在进行分组操作之前,首先需要创建一个数据集。 例如,创建一个记录销售额的数据集: import pandas …

    Pandas函数大全 2023年3月22日
    00
  • 详解pandas.concat()(合并数据框)函数使用方法

    Pandas.concat()的作用 Pandas库中的concat()函数主要用于合并/拼接一个或多个数据帧。数据帧可以是行方向(axis=0)或列方向(axis=1)的合并,merge的结果就是一个新的数据帧。合并的数据帧可以从多个源获取,这使得它成为数据处理和分析中非常有用的工具。 Pandas.concat()的使用方法 Pandas.concat(…

    Pandas函数大全 2023年3月22日
    00
  • 详解pandas.pivot_table()(创建透视表)函数使用方法

    作用 pandas.pivot_table()是pandas库中的一个函数,它可以根据指定的行和列,对数据进行透视,计算出指定字段的聚合值,并返回一个新的表格。pivot_table()可以帮助我们进行数据的汇总和分析,方便我们发现数据中的规律和趋势。 使用方法 pivot_table()函数的语法格式如下: pivot_table(data, values…

    Pandas函数大全 2023年3月22日
    00
合作推广
合作推广
分享本页
返回顶部