用python对excel查重

yizhihongxing

以下是详细的实例教程。

准备工作

首先我们需要安装 pandasxlrd 库,可以使用 pip 命令进行安装:

pip install pandas xlrd

安装完成后,我们需要准备一个示例的 excel 文件,例如文件名为 example.xlsx,里面包含姓名和电话两列数据。

读取 Excel 文件

首先我们需要使用 pandas 库读取 excel 文件并转换为 pandas 数据框,代码示例如下:

import pandas as pd

df = pd.read_excel('example.xlsx')
print(df.head())

运行以上代码后,我们可以看到输出了 example.xlsx 文件的前 5 行数据。

查找重复数据

接下来我们可以使用 pandas 数据框的 duplicated 方法来查找重复数据,代码示例如下:

duplicate_rows_df = df[df.duplicated()]
print("Duplicate Rows except first occurrence based on all columns are :")
print(duplicate_rows_df)

运行以上代码后,我们可以看到输出了所有重复的行数据。

删除重复数据

最后,如果我们需要删除重复的数据,可以使用 drop_duplicates 方法,代码示例如下:

df.drop_duplicates(inplace=True)
print(df.head())

运行以上代码后,我们可以看到输出了删除重复数据后的结果。

示例说明

假设我们现在有一个包含 10 行数据的示例 excel 文件,文件名为 example.xlsx,其中包含两列数据:姓名和电话。其中,第 3 行和第 7 行数据完全相同,我们需要找出并删除这些重复数据。

步骤一:读取 Excel 文件

首先我们需要使用 pandas 库读取 excel 文件并转换为 pandas 数据框,

import pandas as pd

df = pd.read_excel('example.xlsx')

步骤二:查找重复数据

接下来我们可以使用 pandas 数据框的 duplicated 方法来查找重复数据,

duplicate_rows_df = df[df.duplicated()]
print("Duplicate Rows except first occurrence based on all columns are :")
print(duplicate_rows_df)

运行以上代码后,我们可以看到输出了所有重复的行数据:

Duplicate Rows except first occurrence based on all columns are :
  name      phone
6  Tom  123456789

步骤三:删除重复数据

最后,我们可以使用 drop_duplicates 方法删除重复的数据,

df.drop_duplicates(inplace=True)
print(df.head())

运行以上代码后,我们可以看到输出了删除重复数据后的结果:

     name       phone
0    Jack  1234567890
1     Tom   987654321
2   Harry     5555555
3    Jack  9999999999
4  Daniel   123123123
5    Alex  1234567890
7  Olivia   555555555
8     Sam  7777777777
9  Justin  8888888888

这样就完成了从 excel 文件中查找和删除重复数据的示例。

本站文章如无特殊说明,均为本站原创,如若转载,请注明出处:用python对excel查重 - Python技术站

(0)
上一篇 2023年5月13日
下一篇 2023年5月13日

相关文章

  • python图片灰度化处理的几种方法

    以下是一份完整的“Python图片灰度化处理的几种方法”的攻略: Python图片灰度化处理的几种方法 简介 图片的灰度化处理可以将一张彩色图片转化为黑白灰度图片,通常用于图像处理、计算机视觉等领域。本攻略主要介绍Python中进行图片的灰度化处理的几种方法。 方法一:使用Pillow库 Pillow是Python中一个常用的图像处理库,其中的Image模块…

    python 2023年5月18日
    00
  • 4种方法python批量修改替换列表中元素

    当我们需要对Python中的列表进行批量修改或替换时,有多种方法可以实现。本文将详细讲解4种常用的方法,包括使用循环、列表推导式、map函数和numpy库。 方法一:使用循环 使用循环是一种基本的方法,可以遍历列表中的每个元素,并对其进行修改或替换。下面是一个简单的示例: # 示例1:使用循环批量修改列表中的元素 lst = [1, 2, 3,4, 5] f…

    python 2023年5月13日
    00
  • python通过加号运算符操作列表的方法

    在Python中,可以使用加号运算符来操作列表,实现列表的拼接。下面是详细的使用方法和示例说明。 加号运算符的使用方法 加号运算符可以用于将两个列表拼接成一个新的列表。语法如下: new_list = list1 + list2 其中,list1和list2是要拼接的两个列表,new_list是拼接后的新列表。 示例说明 下面是一个示例,演示如何使用加号运算…

    python 2023年5月13日
    00
  • Python3使用requests模块实现显示下载进度的方法详解

    在Python中,requests是一个常用的HTTP客户端库,可以用于发送HTTP请求和处理HTTP响应。在下载大文件时,可以使用requests库实现显示下载进度的功能。以下是详细讲解Python3使用requests模块实现显示下载进度的方法的攻略,包含两个例。 使用tqdm库实现显示下载进度 tqdm是一个Python进度条库,可以用于显示进度条和估…

    python 2023年5月15日
    00
  • 利用Pytorch实现简单的线性回归算法

    以下是关于“利用PyTorch实现简单的线性回归算法”的完整攻略: 简介 线性回归是一种常用的机器学习算法,用于预测连续型变量。在本教程中,我们将介绍如何使用PyTorch实现一个简单的线性回归算法,包括数据预处理、模型构建、模型训练和预测等步骤。 原理 线性回归是一种基于线性模型的回归算法,它假设自变量和因变量之间存在线性关系。在本教程中,我们将使用PyT…

    python 2023年5月14日
    00
  • Python中join()函数多种操作代码实例

    使用join()函数可以将一个可迭代对象的元素连接成一个字符串。其语法如下: str.join(iterable) 其中,str表示把可迭代对象中的元素以该字符串连接。iterable表示要连接的可迭代对象,例如列表、元组、字符串等。 下面是join()函数的两条示例代码: 示例1:连接列表中的字符串 # 定义一个列表 fruits = [‘apple’, …

    python 2023年5月14日
    00
  • Python实现3行代码解简单的一元一次方程

    Python实现3行代码解简单的一元一次方程 简介 在本文中,我将向您展示如何使用Python解决简单的一元一次方程,以及如何减少代码行数。 具体步骤 导入 sympy 模块 我们将使用 sympy 模块来解决一元一次方程。 python import sympy as sp 定义变量和方程式 在本示例中,我将解决方程 2x – 3 = 5,并将结果赋值给变…

    python 2023年5月19日
    00
  • Python 实用技巧之利用Shell通配符做字符串匹配

    在 Python 中,我们可以使用 Shell 通配符来进行字符串匹配。Shell 通配符是一种用于匹配文件名的模式,它可以用来匹配字符串中的特定部分。下面将详细讲解如何在 Python 中利用 Shell 通配符进行字符串匹配。 1. 利用 Shell 通配符进行字符串匹配 在 Python 中,我们可以使用 fnmatch 模块来实现 Shell 通配符…

    python 2023年5月14日
    00
合作推广
合作推广
分享本页
返回顶部