接下来我给出详细的Python遍历文件夹下所有Excel文件的实例教程。
步骤1:引入相关库
首先,我们需要引入os
和pandas
库。
import os
import pandas as pd
步骤2:定义遍历文件夹函数
我们需要定义一个函数,用于遍历指定目录下所有的Excel文件,并将其读入DataFrame中。
def get_all_excel_files(path):
# 初始化列表,保存Excel数据
dataframes = []
# 遍历目录下所有文件
for file_name in os.listdir(path):
# 检查文件是否以.xlsx或.xls结尾
if file_name.endswith('.xlsx') or file_name.endswith('.xls'):
# 构建文件路径
file_path = os.path.join(path, file_name)
# 读取Excel文件,并将数据保存到DataFrame中
df = pd.read_excel(file_path)
dataframes.append(df)
# 将所有DataFrame合并
merged_df = pd.concat(dataframes, ignore_index=True)
return merged_df
这个函数会遍历指定目录下的所有文件,并且只读取Excel文件,然后将数据保存到DataFrame中,并返回合并后的DataFrame。
步骤3:调用遍历文件夹函数
接下来,我们需要调用上面的函数,并传入目标目录的路径,以获取遍历文件夹后的结果。
df = get_all_excel_files('/path/to/folder')
print(df.head())
示例说明1
假如我们有一个包含多个Excel文件的文件夹,其中两个文件如下:
data1.xlsx
:包含3列10行的数据data2.xlsx
:包含2列5行的数据
我们可以使用上面的函数,将这两个Excel文件读取并合并到一个DataFrame中,如下所示:
df = get_all_excel_files('/path/to/folder')
print(df.head())
# 输出结果:
# Column1 Column2 Column3
# 0 1 2 3
# 1 4 5 6
# 2 7 8 9
# 3 11 12 NaN
# 4 14 15 NaN
示例说明2
假如我们有一个包含多个子文件夹的文件夹,其中某个子文件夹中包含多个Excel文件,我们也可以使用上面的函数来获得这些Excel文件的数据,并将它们合并到一个DataFrame中。
df = get_all_excel_files('/path/to/folder/with/subfolders')
print(df.head())
总结一下,这个函数可以通过遍历指定目录下的所有Excel文件,将它们的数据读取到一个DataFrame中,并返回合并后的DataFrame。同时,它也支持遍历包含多个子文件夹的目录。
本站文章如无特殊说明,均为本站原创,如若转载,请注明出处:python遍历文件夹下所有excel文件 - Python技术站