使用Pandas处理EXCEL文件

2023年3月27日下午2:32 • python-answer

使用Pandas处理Excel文件可以帮助我们更方便快速地进行数据处理与分析。下面，我将介绍几个常用的Pandas操作：

读取Excel文件

我们可以使用pandas库中的read_excel()方法读取Excel文件数据。可以指定读取的Sheet页，也可以指定读取的数据起始位置和读取的行数。

import pandas as pd

# 读取Excel文件
df = pd.read_excel('data.xlsx', sheet_name='Sheet1', skiprows=1, nrows=10)

# 打印读取的数据
print(df)

上面的代码中，skiprows参数表示要跳过的行数，nrows参数表示读取的行数。

写入Excel文件

我们可以使用pandas库中的to_excel()方法将数据写入Excel文件。可以指定写入的Sheet页和写入的位置。

import pandas as pd

# 创建DataFrame对象
data = {'Name': ['Tom', 'Lucy', 'John'],
        'Age': [18, 19, 20],
        'Country': ['China', 'USA', 'UK']}
df = pd.DataFrame(data)

# 写入Excel文件
with pd.ExcelWriter('output.xlsx') as writer:
    df.to_excel(writer, sheet_name='Sheet1', startrow=1, startcol=2, index=False)

上面的代码中，startrow参数和startcol参数表示写入的起始位置。

数据筛选和过滤

我们可以使用pandas库中的loc和iloc方法对数据进行筛选和过滤。

loc方法根据“label”来取出数据，其中第一个参数表示行名（即index），第二个参数表示列名。

import pandas as pd

# 读取Excel文件
df = pd.read_excel('data.xlsx', sheet_name='Sheet1')

# 筛选出性别为女性的数据
df_female = df.loc[df['Gender'] == 'Female']

# 打印筛选出的数据
print(df_female)

iloc方法根据“integer location”来取出数据，其中第一个参数表示行号（从0开始），第二个参数表示列号（从0开始）。

import pandas as pd

# 读取Excel文件
df = pd.read_excel('data.xlsx', sheet_name='Sheet1')

# 取出第1列和第3列的数据
df_specified_columns = df.iloc[:, [0, 2]]

# 打印筛选出的数据
print(df_specified_columns)

数据排序

我们可以使用pandas库中的sort_values()方法对数据进行排序，可以根据指定的列名和排序方式进行排序，默认为升序排序。

import pandas as pd

# 读取Excel文件
df = pd.read_excel('data.xlsx', sheet_name='Sheet1')

# 根据年龄，对数据升序排序
df_sorted = df.sort_values(by=['Age'])

# 打印排序后的数据
print(df_sorted)

上面的代码中，by参数表示要排序的列名。

这些就是部分常用的Pandas操作，通过这些方法的组合，我们可以对Excel文件中的数据进行各种操作，实现更丰富地数据分析。

本站文章如无特殊说明，均为本站原创，如若转载，请注明出处：使用Pandas处理EXCEL文件 - Python技术站