以下是详细的实例教程。
准备工作
首先我们需要安装 pandas
和 xlrd
库,可以使用 pip
命令进行安装:
pip install pandas xlrd
安装完成后,我们需要准备一个示例的 excel 文件,例如文件名为 example.xlsx
,里面包含姓名和电话两列数据。
读取 Excel 文件
首先我们需要使用 pandas
库读取 excel 文件并转换为 pandas 数据框,代码示例如下:
import pandas as pd
df = pd.read_excel('example.xlsx')
print(df.head())
运行以上代码后,我们可以看到输出了 example.xlsx
文件的前 5 行数据。
查找重复数据
接下来我们可以使用 pandas 数据框的 duplicated
方法来查找重复数据,代码示例如下:
duplicate_rows_df = df[df.duplicated()]
print("Duplicate Rows except first occurrence based on all columns are :")
print(duplicate_rows_df)
运行以上代码后,我们可以看到输出了所有重复的行数据。
删除重复数据
最后,如果我们需要删除重复的数据,可以使用 drop_duplicates
方法,代码示例如下:
df.drop_duplicates(inplace=True)
print(df.head())
运行以上代码后,我们可以看到输出了删除重复数据后的结果。
示例说明
假设我们现在有一个包含 10 行数据的示例 excel 文件,文件名为 example.xlsx
,其中包含两列数据:姓名和电话。其中,第 3 行和第 7 行数据完全相同,我们需要找出并删除这些重复数据。
步骤一:读取 Excel 文件
首先我们需要使用 pandas
库读取 excel 文件并转换为 pandas 数据框,
import pandas as pd
df = pd.read_excel('example.xlsx')
步骤二:查找重复数据
接下来我们可以使用 pandas 数据框的 duplicated
方法来查找重复数据,
duplicate_rows_df = df[df.duplicated()]
print("Duplicate Rows except first occurrence based on all columns are :")
print(duplicate_rows_df)
运行以上代码后,我们可以看到输出了所有重复的行数据:
Duplicate Rows except first occurrence based on all columns are :
name phone
6 Tom 123456789
步骤三:删除重复数据
最后,我们可以使用 drop_duplicates
方法删除重复的数据,
df.drop_duplicates(inplace=True)
print(df.head())
运行以上代码后,我们可以看到输出了删除重复数据后的结果:
name phone
0 Jack 1234567890
1 Tom 987654321
2 Harry 5555555
3 Jack 9999999999
4 Daniel 123123123
5 Alex 1234567890
7 Olivia 555555555
8 Sam 7777777777
9 Justin 8888888888
这样就完成了从 excel 文件中查找和删除重复数据的示例。
本站文章如无特殊说明,均为本站原创,如若转载,请注明出处:用python对excel查重 - Python技术站