用python对excel查重

以下是详细的实例教程。

准备工作

首先我们需要安装 pandasxlrd 库,可以使用 pip 命令进行安装:

pip install pandas xlrd

安装完成后,我们需要准备一个示例的 excel 文件,例如文件名为 example.xlsx,里面包含姓名和电话两列数据。

读取 Excel 文件

首先我们需要使用 pandas 库读取 excel 文件并转换为 pandas 数据框,代码示例如下:

import pandas as pd

df = pd.read_excel('example.xlsx')
print(df.head())

运行以上代码后,我们可以看到输出了 example.xlsx 文件的前 5 行数据。

查找重复数据

接下来我们可以使用 pandas 数据框的 duplicated 方法来查找重复数据,代码示例如下:

duplicate_rows_df = df[df.duplicated()]
print("Duplicate Rows except first occurrence based on all columns are :")
print(duplicate_rows_df)

运行以上代码后,我们可以看到输出了所有重复的行数据。

删除重复数据

最后,如果我们需要删除重复的数据,可以使用 drop_duplicates 方法,代码示例如下:

df.drop_duplicates(inplace=True)
print(df.head())

运行以上代码后,我们可以看到输出了删除重复数据后的结果。

示例说明

假设我们现在有一个包含 10 行数据的示例 excel 文件,文件名为 example.xlsx,其中包含两列数据:姓名和电话。其中,第 3 行和第 7 行数据完全相同,我们需要找出并删除这些重复数据。

步骤一:读取 Excel 文件

首先我们需要使用 pandas 库读取 excel 文件并转换为 pandas 数据框,

import pandas as pd

df = pd.read_excel('example.xlsx')

步骤二:查找重复数据

接下来我们可以使用 pandas 数据框的 duplicated 方法来查找重复数据,

duplicate_rows_df = df[df.duplicated()]
print("Duplicate Rows except first occurrence based on all columns are :")
print(duplicate_rows_df)

运行以上代码后,我们可以看到输出了所有重复的行数据:

Duplicate Rows except first occurrence based on all columns are :
  name      phone
6  Tom  123456789

步骤三:删除重复数据

最后,我们可以使用 drop_duplicates 方法删除重复的数据,

df.drop_duplicates(inplace=True)
print(df.head())

运行以上代码后,我们可以看到输出了删除重复数据后的结果:

     name       phone
0    Jack  1234567890
1     Tom   987654321
2   Harry     5555555
3    Jack  9999999999
4  Daniel   123123123
5    Alex  1234567890
7  Olivia   555555555
8     Sam  7777777777
9  Justin  8888888888

这样就完成了从 excel 文件中查找和删除重复数据的示例。

本站文章如无特殊说明,均为本站原创,如若转载,请注明出处:用python对excel查重 - Python技术站

(0)
上一篇 2023年5月13日
下一篇 2023年5月13日

相关文章

  • python自然语言处理之字典树知识总结

    Python自然语言处理之字典树知识总结 什么是字典树 字典树(Trie树)是一种哈希树的变种,也称为单词查找树或键树。字典树是一棵树,每个节点包含若干字符,而不是单个字符。在实现自然语言处理中,字典树常用来处理字符串匹配、拼写检查、词频统计等任务。 字典树的优势在于它可以在$O(k)$的时间复杂度($k$为字符串长度)内完成字符串的查找操作,而且还可以较方…

    python 2023年5月13日
    00
  • matplotlib实现自定义散点形状marker的3种方法

    当我们使用matplotlib绘制散点图时,我们可以自定义散点的形状marker。通常情况下,我们会使用matplotlib提供的基本形状,比如圆形、正方形等。但是,有时候我们希望自定义更特殊的形状,比如心形、五角星等。本文将介绍3种方法来实现自定义散点形状的marker。 方法一:使用matplotlib提供的Path类 第一种方法是通过创建Path对象来…

    python 2023年5月18日
    00
  • 详解Python PIL ImagePalette()方法

    当使用Python操作图片时,我们可以使用Python Imaging Library (PIL) 这个库。ImagePalette()方法是PIL库中的一个函数,主要作用是创建或返回定义的调色板或调色板信息。在下文中,我们将详细讲解Python PIL ImagePalette()方法。 一、方法说明 1.1 基本语法 在Python中,我们可以使用如下的…

    python-answer 2023年3月25日
    00
  • python实现批量监控网站

    Python实现批量监控网站 概述 本文介绍如何使用Python实现批量监控多个网站的方法,实现监控网站状态的自动化。 准备工作 在使用Python实现批量监控网站时,需要先安装requests和beautifulsoup4这两个库。它们的安装可以使用pip命令来完成,示例代码如下: pip install requests pip install beau…

    python 2023年6月2日
    00
  • Python使用win32 COM实现Excel的写入与保存功能示例

    下面是Python使用win32COM实现Excel的写入与保存功能示例的完整实例教程。 环境准备 在使用win32COM控制Excel之前,需要先确认安装了Python和pywin32库。可以使用以下命令安装pywin32库: pip install pywin32 Excel的创建和基本操作 使用win32COM控制Excel,首先需要创建一个Excel…

    python 2023年5月13日
    00
  • 使用pandas读取csv文件的指定列方法

    当需要对大量数据进行处理时,我们通常会将数据存储在csv文件中。Pandas是一个非常流行的Python库,可用于数据处理和操作。它支持读取和处理各种格式的数据,包括csv文件。 在Pandas中读取csv文件时,我们可以使用read_csv函数。该函数通常会读取csv文件的所有列,但有时我们只需要读取特定的一部分列,这时候我们需要使用指定列的方法。 以下是…

    python 2023年6月3日
    00
  • python playwright 自动等待和断言详解

    Python Playwright 自动等待和断言详解 Python Playwright 是一个用于自动化测试的 Python 库,它可以对 web 程序进行操作及断言,同时它还内置了自动等待能力,可以有效地避免因为页面异步处理或延迟加载导致的时间差问题。 自动等待 在爬取网页或进行自动化测试时,通常会出现下面的情况: 页面可能正在进行异步处理或延迟加载,…

    python 2023年5月19日
    00
  • Python 判断文件或目录是否存在的实例代码

    当我们在编写 Python 程序时,经常需要判断文件或目录是否存在,以便进行相应的操作。Python 提供了 os 模块可以很方便的判断文件或目录是否存在。 1. 导入 os 模块 在 Python 中使用 os 模块需要先导入它,可以使用 import 语句导入 os 模块,代码如下: import os 2. 使用 os.path 模块判断文件或目录是否…

    python 2023年6月2日
    00
合作推广
合作推广
分享本页
返回顶部