用python对excel查重

以下是详细的实例教程。

准备工作

首先我们需要安装 pandasxlrd 库,可以使用 pip 命令进行安装:

pip install pandas xlrd

安装完成后,我们需要准备一个示例的 excel 文件,例如文件名为 example.xlsx,里面包含姓名和电话两列数据。

读取 Excel 文件

首先我们需要使用 pandas 库读取 excel 文件并转换为 pandas 数据框,代码示例如下:

import pandas as pd

df = pd.read_excel('example.xlsx')
print(df.head())

运行以上代码后,我们可以看到输出了 example.xlsx 文件的前 5 行数据。

查找重复数据

接下来我们可以使用 pandas 数据框的 duplicated 方法来查找重复数据,代码示例如下:

duplicate_rows_df = df[df.duplicated()]
print("Duplicate Rows except first occurrence based on all columns are :")
print(duplicate_rows_df)

运行以上代码后,我们可以看到输出了所有重复的行数据。

删除重复数据

最后,如果我们需要删除重复的数据,可以使用 drop_duplicates 方法,代码示例如下:

df.drop_duplicates(inplace=True)
print(df.head())

运行以上代码后,我们可以看到输出了删除重复数据后的结果。

示例说明

假设我们现在有一个包含 10 行数据的示例 excel 文件,文件名为 example.xlsx,其中包含两列数据:姓名和电话。其中,第 3 行和第 7 行数据完全相同,我们需要找出并删除这些重复数据。

步骤一:读取 Excel 文件

首先我们需要使用 pandas 库读取 excel 文件并转换为 pandas 数据框,

import pandas as pd

df = pd.read_excel('example.xlsx')

步骤二:查找重复数据

接下来我们可以使用 pandas 数据框的 duplicated 方法来查找重复数据,

duplicate_rows_df = df[df.duplicated()]
print("Duplicate Rows except first occurrence based on all columns are :")
print(duplicate_rows_df)

运行以上代码后,我们可以看到输出了所有重复的行数据:

Duplicate Rows except first occurrence based on all columns are :
  name      phone
6  Tom  123456789

步骤三:删除重复数据

最后,我们可以使用 drop_duplicates 方法删除重复的数据,

df.drop_duplicates(inplace=True)
print(df.head())

运行以上代码后,我们可以看到输出了删除重复数据后的结果:

     name       phone
0    Jack  1234567890
1     Tom   987654321
2   Harry     5555555
3    Jack  9999999999
4  Daniel   123123123
5    Alex  1234567890
7  Olivia   555555555
8     Sam  7777777777
9  Justin  8888888888

这样就完成了从 excel 文件中查找和删除重复数据的示例。

本站文章如无特殊说明,均为本站原创,如若转载,请注明出处:用python对excel查重 - Python技术站

(0)
上一篇 2023年5月13日
下一篇 2023年5月13日

相关文章

  • 详解python中读取和查看图片的6种方法

    当需要使用Python读取和查看图片时,有许多种方法可以实现。本文将详细介绍Python中读取和查看图片的6种方法。 方案1:使用Pillow库 Pillow库是Python中广泛使用的一个开源图形库,具有丰富的图像处理功能。使用该库可以简单地读取和查看图片。以下是Pillow库读取和查看图片的示例代码: from PIL import Image # 读取…

    python 2023年5月18日
    00
  • python之生成多层json结构的实现

    生成多层JSON结构是Python中常见的操作,下面我为大家介绍一下实现该功能的完整攻略。 1. 使用Python内置数据类型生成多层JSON结构 Python中内置的list和dict数据类型可以方便地生成多层JSON结构。对于多层JSON结构的生成,我们可以递归使用list和dict组合嵌套的方式来完成。下面是一个实现示例: import json de…

    python 2023年6月3日
    00
  • 用python实现英文字母和相应序数转换的方法

    在Python中,我们可以使用ord和chr函数将英文字母和相应序数进行转换。ord函数可以将一个字符转换为其对应的ASCII码值,而chr函数可以将一个ASCII码值转换为其对应的字符。本文将介绍用Python实现英文字母和相应序数转换的方法的完整攻略,包括将字母转换为序数、将序数转换为字母和两个示例说明。 将字母转换为序数 在Python中,我们可以使用…

    python 2023年5月14日
    00
  • Excel 如何裁剪字符

    在 Excel 中,可以使用 LEFT、RIGHT 和 MID 函数来裁剪字符。以下是在 Excel 中裁剪字符的完整攻略: LEFT 函数 LEFT 函数用于从文本字符串的左侧开始取指定数量的字符。以下是使用 LEFT 函数裁剪字符完整攻略: 选中包含文本字符串的单元格。 在公式栏中输入“=LEFT(A1,5)”( A1 是包含文本字符串的单元格位置,5 …

    云计算 2023年5月10日
    00
  • 如何在Python中使用PyODBC库连接Microsoft SQL Server数据库?

    以下是如何在Python中使用PyODBC库连接Microsoft SQL Server数据库的完整使用攻略,包括安装PyODBC库、连接Microsoft SQL Server数据库、执行查询语句等步骤。同时,提供了两个示例以便更好理解如何在Python中使用PyODBC库连接Microsoft SQL Server数据库。 步骤1:安装PyODBC库 在…

    python 2023年5月12日
    00
  • Excel 如何复选框被选中时改变指定的单元格值或颜色

    要在 Excel 中实现复选框被选中时改变指定的单元格值或颜色,可以使用“表单控件”和“宏”功能。具体步骤如下: 在 Excel 中,选择要添加复选框的单元格。 在“开发工具”选项卡中,单击“插入”按钮,然后选择“复选框”。 在“格式控制”对话框中,更改复选框的名称和位置。 在“开发工具”选项卡中,单击“视觉基本”按钮,然后选择“宏”。 在“新建宏”对话框中…

    云计算 2023年5月10日
    00
  • Python shapefile转GeoJson的2种方式实例

    下面将详细讲解“Python shapefile转GeoJson的2种方式实例”的完整攻略。 1. 背景介绍 在GIS领域中,Shapefile和GeoJson是两种常用的数据格式。Shapefile是一种矢量数据格式,常用于表示地图上的点、线、面等要素;而GeoJson是一种开放标准的数据格式,是JSON的一种扩展格式,用于表示地图上的空间信息。在GIS应…

    python 2023年6月3日
    00
  • Python中实现switch功能实例解析

    下面是关于“Python中实现switch功能实例解析”的完整攻略。 概述 在Python中,没有类似于C++或Java中的switch-case语句来实现多个分支的条件判断。但是,我们可以使用字典(dict)和函数来实现类似于switch-case的功能。下面就让我们一步步来看如何实现。 方法1:使用字典实现 使用字典实现switch-case语句的思路是…

    python 2023年5月19日
    00
合作推广
合作推广
分享本页
返回顶部