用python对excel查重

yizhihongxing

以下是详细的实例教程。

准备工作

首先我们需要安装 pandasxlrd 库,可以使用 pip 命令进行安装:

pip install pandas xlrd

安装完成后,我们需要准备一个示例的 excel 文件,例如文件名为 example.xlsx,里面包含姓名和电话两列数据。

读取 Excel 文件

首先我们需要使用 pandas 库读取 excel 文件并转换为 pandas 数据框,代码示例如下:

import pandas as pd

df = pd.read_excel('example.xlsx')
print(df.head())

运行以上代码后,我们可以看到输出了 example.xlsx 文件的前 5 行数据。

查找重复数据

接下来我们可以使用 pandas 数据框的 duplicated 方法来查找重复数据,代码示例如下:

duplicate_rows_df = df[df.duplicated()]
print("Duplicate Rows except first occurrence based on all columns are :")
print(duplicate_rows_df)

运行以上代码后,我们可以看到输出了所有重复的行数据。

删除重复数据

最后,如果我们需要删除重复的数据,可以使用 drop_duplicates 方法,代码示例如下:

df.drop_duplicates(inplace=True)
print(df.head())

运行以上代码后,我们可以看到输出了删除重复数据后的结果。

示例说明

假设我们现在有一个包含 10 行数据的示例 excel 文件,文件名为 example.xlsx,其中包含两列数据:姓名和电话。其中,第 3 行和第 7 行数据完全相同,我们需要找出并删除这些重复数据。

步骤一:读取 Excel 文件

首先我们需要使用 pandas 库读取 excel 文件并转换为 pandas 数据框,

import pandas as pd

df = pd.read_excel('example.xlsx')

步骤二:查找重复数据

接下来我们可以使用 pandas 数据框的 duplicated 方法来查找重复数据,

duplicate_rows_df = df[df.duplicated()]
print("Duplicate Rows except first occurrence based on all columns are :")
print(duplicate_rows_df)

运行以上代码后,我们可以看到输出了所有重复的行数据:

Duplicate Rows except first occurrence based on all columns are :
  name      phone
6  Tom  123456789

步骤三:删除重复数据

最后,我们可以使用 drop_duplicates 方法删除重复的数据,

df.drop_duplicates(inplace=True)
print(df.head())

运行以上代码后,我们可以看到输出了删除重复数据后的结果:

     name       phone
0    Jack  1234567890
1     Tom   987654321
2   Harry     5555555
3    Jack  9999999999
4  Daniel   123123123
5    Alex  1234567890
7  Olivia   555555555
8     Sam  7777777777
9  Justin  8888888888

这样就完成了从 excel 文件中查找和删除重复数据的示例。

本站文章如无特殊说明,均为本站原创,如若转载,请注明出处:用python对excel查重 - Python技术站

(0)
上一篇 2023年5月13日
下一篇 2023年5月13日

相关文章

  • 使用python脚本自动创建pip.ini配置文件代码实例

    下面是使用python脚本自动创建pip.ini配置文件的完整攻略: 什么是pip.ini? pip.ini是pip配置文件,包含了一些配置信息,如设置pip源、设置代理等。当使用pip安装或更新Python库时,会从pip.ini文件中读取相应的配置信息,并据此执行相应的操作。 如果没有pip.ini文件,pip会使用默认配置信息进行操作。但是,如果你需要…

    python 2023年5月14日
    00
  • python内置函数zip详解

    Python内置函数zip详解 什么是Python内置函数zip? zip()函数是Python的内置函数之一,它可以将多个列表、元组或其他序列类型对象平行的组合成一个新的元组列表,其中第i个元组包含了各个参数序列中第i个元素。 zip()函数常见的参数类型 zip(*iterables)函数有如下参数:- iterables:表示可迭代对象的列表,多个可迭…

    python 2023年5月14日
    00
  • python鼠标绘图附代码

    下面我将向你详细讲解如何使用Python进行鼠标绘图,附带代码示例。 1. 准备工作 在使用Python进行鼠标绘图之前,我们需要安装相应的第三方库matplotlib和numpy。你可以通过以下命令来安装: pip install matplotlib numpy 2. 鼠标绘图的基本流程 鼠标绘图的基本流程如下: 导入相关库和模块 创建画布和坐标轴 绘制…

    python 2023年5月19日
    00
  • Python创建文件和追加文件内容实例

    针对Python创建文件和追加文件内容,以下是完整的攻略: 1. 创建文件 在Python中,可以通过文件操作模块(os和os.path模块)和文件对象操作模块(open函数)来创建文件。 1.1 使用os方式创建文件 import os # 打开(创建)一个文件(’w’代表写入方式) file = open(‘example.txt’, ‘w’) # 向文…

    python 2023年6月5日
    00
  • Python threading和Thread模块及线程的实现

    Python是一门支持多线程编程的语言,它提供了threading和Thread模块来支持多线程编程。线程是程序中一个独立的执行流程,Python中的多线程可以充分利用多核CPU的优势,从而提高程序的并发能力和效率。 Thread模块 Thread模块是Python提供的最简单的多线程实现方式,它包含了线程相关的一些基础操作函数和类。在使用Thread模块时…

    python 2023年5月19日
    00
  • 详解Python中for循环的定义迭代方法

    下面是Python中for循环的完整攻略。 什么是for循环? Python中的for循环是一种迭代结构,它可以轻松地遍历序列和其他可迭代对象的元素。for循环执行数次,每次执行时从可迭代对象中获取一个元素,直到可迭代对象的最后一个元素被处理为止。 for循环语法 for循环的基本语法如下: for 变量 in 可迭代对象: # 执行代码块 其中,变量代表从…

    python 2023年5月14日
    00
  • Python基本类型的连接组合和互相转换方式(13种)

    Python基本类型有13种,它们分别是:整数(int)、长整数(long)、浮点数(float)、复数(complex)、字符串(str)、列表(list)、元组(tuple)、集合(set)、字典(dict)、布尔型(bool)、空类型(NoneType)、字节类型(bytes)、字节数组类型(bytearray)。这些基本类型之间可以互相转换,并且可以…

    python 2023年5月14日
    00
  • Python实现中英文全文搜索的示例

    下面我将详细讲解“Python实现中英文全文搜索的示例”的完整攻略,具体内容如下: 1. 准备工作 首先,需要安装Python3的开发环境,以及Python的第三方依赖库Whoosh和jieba。- 安装Python可以到 Python官网 下载对应的版本并安装。- 安装Whoosh和jieba可以使用pip命令进行安装。 pip install Whoos…

    python 2023年6月3日
    00
合作推广
合作推广
分享本页
返回顶部