Pandas - 从多列中寻找唯一值

Pandas – 从多列中寻找唯一值

2023年3月27日下午12:07 • python-answer

Pandas是一个Python数据分析工具集，拥有大量处理数据的功能。当我们需要从多列中找出唯一的值时，可以使用 Pandas 提供的 drop_duplicates() 方法。

什么是重复值

如果两个或多个行中的值完全相同，则这些行就被称为重复行。类似地，如果两个或多个列中的值完全相同，则这些列就是重复的。在数据处理中，重复值可能会影响数据的准确性、结果的保真度和处理效率。

例如，下面的表格中包含了3列数据，其中第二列有重复：

ID	Name	Age
1	John	23
2	Mary	43
3	John	28
4	Tom	33
5	Mary	55
6	Bob	27

我们可以看到，第二列包含重复的名字，John和Mary都出现了两次。如果我们需要知道所有不同的名字，我们需要使用 drop_duplicates() 方法。

使用 Pandas 的 drop_duplicates() 方法

Pandas 的 drop_duplicates() 方法可以用于从 DataFrame 中移除重复的行或列，并返回一个新的 DataFrame。默认情况下，该方法根据所有列的值进行去重。例如，我们可以像这样在 Pandas 中使用 drop_duplicates() 来获得唯一的名字：

import pandas as pd

# 创建 DataFrame
df = pd.DataFrame({'ID': [1, 2, 3, 4, 5, 6],
                   'Name': ['John', 'Mary', 'John', 'Tom', 'Mary', 'Bob'],
                   'Age': [23, 43, 28, 33, 55, 27]})

# 移除重复的名字，并返回新的 DataFrame
unique_names = df['Name'].drop_duplicates()

# 输出所有不同的名字
print(unique_names)

我们将 DataFrame df 中的 Name 列传递给 drop_duplicates()，并将返回值存储在 unique_names 变量中。最后，我们打印 unique_names 的值，输出所有不同的名字：

0     John
1     Mary
3      Tom
5      Bob
Name: Name, dtype: object

我们可以看到，drop_duplicates() 方法返回了一个包含所有不同名字的新的 DataFrame，其中每个名字只出现了一次。

除了根据单个列的值去重，还可以根据多个列的值进行去重。例如，我们可以像这样在Pandas中使用 drop_duplicates() 方法去除重复的行：

# 根据 Name 和 Age 列的值进行去重
unique_records = df.drop_duplicates(subset=['Name', 'Age'])

# 输出新的 DataFrame
print(unique_records)

上面代码中，我们指定了 subset 参数为 ['Name', 'Age']，将 DataFrame 根据 Name 和 Age 列的值进行去重。最后，我们打印 unique_records 的值：

   ID  Name  Age
0   1  John   23
1   2  Mary   43
2   3  John   28
3   4   Tom   33
4   5  Mary   55
5   6   Bob   27

我们可以看到，结果 DataFrame unique_records 中不包含重复的行，其中每个 Name 和 Age 的组合只出现了一次。

以上是Pandas中使用 drop_duplicates() 方法从多列中寻找唯一值的详细讲解。

本站文章如无特殊说明，均为本站原创，如若转载，请注明出处：Pandas – 从多列中寻找唯一值 - Python技术站

Pandas – 从多列中寻找唯一值

什么是重复值

使用 Pandas 的 drop_duplicates() 方法

相关文章