用python对excel查重

以下是详细的实例教程。

准备工作

首先我们需要安装 pandasxlrd 库,可以使用 pip 命令进行安装:

pip install pandas xlrd

安装完成后,我们需要准备一个示例的 excel 文件,例如文件名为 example.xlsx,里面包含姓名和电话两列数据。

读取 Excel 文件

首先我们需要使用 pandas 库读取 excel 文件并转换为 pandas 数据框,代码示例如下:

import pandas as pd

df = pd.read_excel('example.xlsx')
print(df.head())

运行以上代码后,我们可以看到输出了 example.xlsx 文件的前 5 行数据。

查找重复数据

接下来我们可以使用 pandas 数据框的 duplicated 方法来查找重复数据,代码示例如下:

duplicate_rows_df = df[df.duplicated()]
print("Duplicate Rows except first occurrence based on all columns are :")
print(duplicate_rows_df)

运行以上代码后,我们可以看到输出了所有重复的行数据。

删除重复数据

最后,如果我们需要删除重复的数据,可以使用 drop_duplicates 方法,代码示例如下:

df.drop_duplicates(inplace=True)
print(df.head())

运行以上代码后,我们可以看到输出了删除重复数据后的结果。

示例说明

假设我们现在有一个包含 10 行数据的示例 excel 文件,文件名为 example.xlsx,其中包含两列数据:姓名和电话。其中,第 3 行和第 7 行数据完全相同,我们需要找出并删除这些重复数据。

步骤一:读取 Excel 文件

首先我们需要使用 pandas 库读取 excel 文件并转换为 pandas 数据框,

import pandas as pd

df = pd.read_excel('example.xlsx')

步骤二:查找重复数据

接下来我们可以使用 pandas 数据框的 duplicated 方法来查找重复数据,

duplicate_rows_df = df[df.duplicated()]
print("Duplicate Rows except first occurrence based on all columns are :")
print(duplicate_rows_df)

运行以上代码后,我们可以看到输出了所有重复的行数据:

Duplicate Rows except first occurrence based on all columns are :
  name      phone
6  Tom  123456789

步骤三:删除重复数据

最后,我们可以使用 drop_duplicates 方法删除重复的数据,

df.drop_duplicates(inplace=True)
print(df.head())

运行以上代码后,我们可以看到输出了删除重复数据后的结果:

     name       phone
0    Jack  1234567890
1     Tom   987654321
2   Harry     5555555
3    Jack  9999999999
4  Daniel   123123123
5    Alex  1234567890
7  Olivia   555555555
8     Sam  7777777777
9  Justin  8888888888

这样就完成了从 excel 文件中查找和删除重复数据的示例。

本站文章如无特殊说明,均为本站原创,如若转载,请注明出处:用python对excel查重 - Python技术站

(0)
上一篇 2023年5月13日
下一篇 2023年5月13日

相关文章

  • Python CSV:在两个 CSV 文件中查找相同的数据并复制相应的数据

    【问题标题】:Python CSV: Find identical data in two CSV files and copy corresponding dataPython CSV:在两个 CSV 文件中查找相同的数据并复制相应的数据 【发布时间】:2023-04-03 05:40:01 【问题描述】: 您好 Stack Overflow 用户, 我对…

    Python开发 2023年4月8日
    00
  • Python四大金刚之字典详解

    Python四大金刚之字典详解 Python四大金刚之一:字典(Dictionary),可以将其看作是由键值对组成的集合,是 Python 内置的一种数据结构,用于存储无序、可变、有键、不重复的数据集合。在 Python3 中,字典的实现是基于哈希表的。该文章将详细讲解字典的基本操作及应用场景。 创建字典 创建字典的方式有多种,其中较为常见的方式如下: 直接…

    python 2023年5月13日
    00
  • 解决python os.mkdir创建目录失败的问题

    要解决os.mkdir函数创建目录失败的问题,可以考虑以下几个方面: 1. 检查路径是否存在 在使用os.mkdir函数创建目录时,需要确保目录的父目录存在。如果路径中任何一级目录不存在,则os.mkdir会抛出异常并创建失败。 示例代码: import os path = "./test1/test2" try: os.mkdir(pa…

    python 2023年6月2日
    00
  • python+selenium识别验证码并登录的示例代码

    使用 Python 和 Selenium 实现识别验证码并登录可以分为以下几个步骤: 使用 Selenium 打开登录页面,并获取验证码图片的 URL。 使用 Python 的 requests 库下载验证码图片,并使用第三方库(如 pytesseract)识别验证码。 将识别结果填入验证码输入框,并填写其他登录信息。 点击登录按钮,完成登录操作。 以下是两…

    python 2023年5月15日
    00
  • 在Python中评估一个einsum表达式的最低成本收缩顺序

    在Python中,我们通常使用numpy库来评估einsum表达式。einsum表达式是一种用来描述张量元素求和的简单表示法,可以用来计算矩阵向量乘法、矩阵相乘等一些基本计算。然而,对于大规模的张量求和问题,可能存在多个收缩顺序,每个收缩顺序的计算时间和空间复杂度都不同。因此,找到最低成本收缩顺序是非常重要的。 评估一个einsum表达式的最低成本收缩顺序可…

    python-answer 2023年3月25日
    00
  • Excel 快速插入多行的方法

    在 Excel 中,有多种方法可以快速插入多行。下面是 Excel 快速插入多行的方法的完整攻略: 方法1:使用“拖动填充”功能 使用“拖动填充”功能可以快速插入多行。下面是使用“拖动填充”功能插入多行的示例攻略: 在 Excel 中选择要插入多行的单元格。 在单元格的右下角找到小黑点。 按住鼠标键,向下拖动鼠标,直到插入所需的行数。 松开鼠标左键,Exce…

    云计算 2023年5月10日
    00
  • python轮询机制控制led实例

    下面我将详细讲解“python轮询机制控制led实例”的完整攻略。 1. 轮询机制的概念和作用 轮询机制是指通过不断地循环查询某个状态来实现任务的执行。在实际编程中,轮询机制常被用于实现一些需要不断检测某个外部状态的任务,例如网络通讯、设备操作等。在这种情况下,我们往往需要通过轮询来获取外部状态的变化,并及时作出相应的响应。 在控制led实例的过程中,我们可…

    python 2023年5月19日
    00
  • 详解Python sys.argv使用方法

    详解Python sys.argv使用方法 什么是sys.argv? 在Python中,sys.argv是Python解释器提供的一个命令行参数列表。它包含了命令行参数的所有参数。sys.argv至少包含一项,即当前程序的名称,其余项是用户传递的参数。 如何使用sys.argv? 使用sys.argv需要先导入sys模块,通过sys.argv获取用户传递的参…

    python 2023年6月2日
    00
合作推广
合作推广
分享本页
返回顶部