详解pandas.drop_duplicates()(删除重复值)函数使用方法

yizhihongxing

pandas.drop_duplicates()的作用

pandas.drop_duplicates()是pandas库中的一个函数,主要用于去除数据集中的重复行。这个函数可以从任何一个DataFrame或Series对象中删除具有重复值的行,并返回一个新的DataFrame或Series,其中不包含任何重复的值。

pandas.drop_duplicates()的使用方法

pandas.drop_duplicates()有几个参数,其中最重要的是subset和keep。

  • subset: 默认值为None,表示检查所有列是否有重复的行。如果指定了这个参数,那么函数将仅检查指定的列是否有重复行。

  • keep: 默认值为first,表示保留第一个值,删除其余的值。如果将其设置为last,则表示保留最后一个值,删除其余的值。

下面是pandas.drop_duplicates()的使用方法:

使用默认值去除重复行

使用默认值情况下,pandas会检查整个DataFrame中的所有列,如果有完全相同的行,则保留第一个行,删除其余的行。

import pandas as pd

data = {'name': ['apple', 'orange', 'banana', 'banana', 'apple'],
       'price': [1.5, 2, 3, 3, 1.5]}
df = pd.DataFrame(data)

df.drop_duplicates()

输出:

     name  price
0   apple    1.5
1  orange    2.0
2  banana    3.0

指定列去除重复行

有时候,我们只是想在一个或多个列中检查重复项,比如上面的例子中我们只想检查name列是否有重复值。我们可以使用参数subset来指定我们感兴趣的列。

df.drop_duplicates(subset=['name'])

输出:

      name  price
0    apple    1.5
1   orange    2.0
2   banana    3.0

可以看到,检查name列的结果与默认检查整个DataFrame的结果是一样的。

保留最后一个重复行

如果我们想保留最后一个重复的行而不是第一个重复的行,可以将参数keep设置为'last'。

df.drop_duplicates(keep='last')

输出:

     name  price
1  orange    2.0
3  banana    3.0
4   apple    1.5

此时,保留了最后一个重复的行。

原地删除重复行

我们可以对原始数据进行操作,通过设置inplace为True,实现原地删除。

df.drop_duplicates(inplace=True)

输出:

     name  price
0   apple    1.5
1  orange    2.0
2  banana    3.0

可以看到,原始数据被修改了,其中不再包含重复行。

这就是pandas.drop_duplicates()的使用方法,使用这个函数可以轻松清除数据中的重复行,使数据更加可靠和可用。

本站文章如无特殊说明,均为本站原创,如若转载,请注明出处:详解pandas.drop_duplicates()(删除重复值)函数使用方法 - Python技术站

(0)
上一篇 2023年3月22日
下一篇 2023年3月22日

相关文章

  • 详解pandas.Series.str.contains()(检测序列中的字符串包含)函数使用方法

    pandas.Series.str.contains()方法是pandas库中Series对象的一个字符串成员方法,用于判断一个字符串是否包含在Series对象的每个元素中,返回一个布尔型Series对象。 使用方法: Series.str.contains(self: ~FrameOrSeries, pat, case=True, flags=0, na=…

    Pandas函数大全 2023年3月22日
    00
  • 详解pandas.DataFrame.notnull()(检测非缺失值)函数使用方法

    pandas.DataFrame.notnull()方法是pandas中DataFrame对象的一个函数,用于检查DataFrame对象中的每个元素是否为空(NaN),并将每个空值替换为False,非空值替换为True返回。 使用方法: DataFrame.notnull(self) 返回值: 返回一个布尔值的DataFrame对象,非空值替换为True,空…

    Pandas函数大全 2023年3月22日
    00
  • 详解pandas.read_excel()(读取Excel文件)函数使用方法

    pandas.read_excel()函数的作用是读取Excel文件中的数据并将其转换为pandas.DataFrame数据类型,以便后续的数据处理、分析和可视化。 使用方法如下: import pandas as pd df = pd.read_excel('file.xlsx', sheet_name='Sheet1&#03…

    Pandas函数大全 2023年3月22日
    00
  • 详解pandas.dropna()(删除缺失值)函数使用方法

    Pandas是一种非常流行的Python数据处理库,其中的dropna()是一个常用的功能,它可以删除包含缺失数据的行或列。这个函数的详细作用和使用方法,可以通过以下攻略来了解。 作用 当处理数据时,常常会遇到缺失值。这些缺失值如果不进行处理,会影响到我们的分析结果。使用dropna()可以方便地去除包含缺失值的行或列,帮助我们得到更准确的结果。 使用方法 …

    Pandas函数大全 2023年3月22日
    00
  • 详解pandas.DataFrame()(创建二维表格)函数使用方法

    pandas.DataFrame() 是 pandas 库中一个十分重要的函数,它用于创建数据帧对象,可以方便地对多维数组或其他数据结构中的数据进行索引、计算、筛选、合并等操作。本文将为大家详细讲解 pandas.DataFrame() 的作用与使用方法。 作用 pandas.DataFrame() 可以将数据对象转变为数据帧对象。DataFrame 是二维…

    Pandas函数大全 2023年3月22日
    00
  • 详解pandas.str.strip()(去除字符串空格)函数使用方法

    pandas中的str.strip()是用于删除Series或DataFrame对象中字符串前后的空格或指定字符的方法。下面详细讲解其作用和使用方法,同时提供两个实例进行说明。 作用 在数据处理中,经常会出现字符串前后有空格的情况,使得字符串无法准确匹配。此时,就需要使用strip()方法来删除前后的空格。 同时,strip()方法还能删除前后指定的字符。对…

    Pandas函数大全 2023年3月22日
    00
  • 详解pandas.str.replace()(字符串替换)函数使用方法

    pandas.str.replace() 函数用于替换 Series 或 DataFrame 中的子字符串。 语法: pandas.str.replace(pat, repl, n=-1, case=None, flags=0, regex=True) 参数介绍: pat:被替换的子字符串 repl:替换 pat 的字符串 n:要替换的子字符串数量。默认值是…

    Pandas函数大全 2023年3月22日
    00
  • 详解pandas.DataFrame.plot()(绘制数据框图表)函数使用方法

    pandas.DataFrame.plot() 是 pandas 库中的一个绘图函数,它允许我们使用数据帧(DataFrame)中的数据绘制各种类型的图表。使用 plot 函数可以帮助我们更直观地了解数据的分布、趋势和关系。 使用方法: pandas.DataFrame.plot(kind=None, x=None, y=None, figsize=None…

    2023年3月22日
    00
合作推广
合作推广
分享本页
返回顶部