使用Pandas处理Excel文件可以帮助我们更方便快速地进行数据处理与分析。下面,我将介绍几个常用的Pandas操作:
- 读取Excel文件
我们可以使用pandas
库中的read_excel()
方法读取Excel文件数据。可以指定读取的Sheet页,也可以指定读取的数据起始位置和读取的行数。
import pandas as pd
# 读取Excel文件
df = pd.read_excel('data.xlsx', sheet_name='Sheet1', skiprows=1, nrows=10)
# 打印读取的数据
print(df)
上面的代码中,skiprows
参数表示要跳过的行数,nrows
参数表示读取的行数。
- 写入Excel文件
我们可以使用pandas
库中的to_excel()
方法将数据写入Excel文件。可以指定写入的Sheet页和写入的位置。
import pandas as pd
# 创建DataFrame对象
data = {'Name': ['Tom', 'Lucy', 'John'],
'Age': [18, 19, 20],
'Country': ['China', 'USA', 'UK']}
df = pd.DataFrame(data)
# 写入Excel文件
with pd.ExcelWriter('output.xlsx') as writer:
df.to_excel(writer, sheet_name='Sheet1', startrow=1, startcol=2, index=False)
上面的代码中,startrow
参数和startcol
参数表示写入的起始位置。
- 数据筛选和过滤
我们可以使用pandas
库中的loc
和iloc
方法对数据进行筛选和过滤。
loc
方法根据“label”来取出数据,其中第一个参数表示行名(即index),第二个参数表示列名。
import pandas as pd
# 读取Excel文件
df = pd.read_excel('data.xlsx', sheet_name='Sheet1')
# 筛选出性别为女性的数据
df_female = df.loc[df['Gender'] == 'Female']
# 打印筛选出的数据
print(df_female)
iloc
方法根据“integer location”来取出数据,其中第一个参数表示行号(从0开始),第二个参数表示列号(从0开始)。
import pandas as pd
# 读取Excel文件
df = pd.read_excel('data.xlsx', sheet_name='Sheet1')
# 取出第1列和第3列的数据
df_specified_columns = df.iloc[:, [0, 2]]
# 打印筛选出的数据
print(df_specified_columns)
- 数据排序
我们可以使用pandas
库中的sort_values()
方法对数据进行排序,可以根据指定的列名和排序方式进行排序,默认为升序排序。
import pandas as pd
# 读取Excel文件
df = pd.read_excel('data.xlsx', sheet_name='Sheet1')
# 根据年龄,对数据升序排序
df_sorted = df.sort_values(by=['Age'])
# 打印排序后的数据
print(df_sorted)
上面的代码中,by
参数表示要排序的列名。
这些就是部分常用的Pandas操作,通过这些方法的组合,我们可以对Excel文件中的数据进行各种操作,实现更丰富地数据分析。
本站文章如无特殊说明,均为本站原创,如若转载,请注明出处:使用Pandas处理EXCEL文件 - Python技术站