首先,需要确保安装了pandas库。可以通过终端或命令行窗口中运行以下命令来安装pandas库:
pip install pandas
接着,将需要连接的Excel文件放置在同一个目录下。为了方便操作,可以将这些文件以相同的文件命名格式放在同一个子目录中。
下面是一个示例,假设我们有三个Excel文件,分别命名为file1.xlsx
、file2.xlsx
和file3.xlsx
,它们均包含名为Sheet1
的工作表,我们将它们放在名为data
的子目录中。这样,文件的目录结构如下:
.
└── data
├── file1.xlsx
├── file2.xlsx
└── file3.xlsx
接下来,可以使用pandas库中的concat
函数来将这些Excel文件的数据连接起来。具体操作如下:
import pandas as pd
import os
# 获取当前工作目录
cwd = os.getcwd()
# 拼接数据子目录的路径
data_dir = os.path.join(cwd, 'data')
# 存储多个Excel文件数据的列表
data_frames = []
# 遍历数据子目录下的所有Excel文件
for file in os.listdir(data_dir):
if file.endswith('.xlsx'):
# 读取Excel文件中名为Sheet1的工作表
df = pd.read_excel(os.path.join(data_dir, file), sheet_name='Sheet1')
# 将数据添加到列表中
data_frames.append(df)
# 使用pandas库中的concat函数将多个DataFrame连接起来
result = pd.concat(data_frames)
# 打印连接后的结果
print(result.head())
上述代码中,首先用os
库获取当前工作目录,再使用os.path.join
函数拼接出数据子目录的路径。接下来创建一个空的列表data_frames
,用于存储读取出的多个DataFrame对象。然后使用os.listdir
函数遍历数据子目录下的所有文件,如果文件名以.xlsx
结尾,则使用pd.read_excel
函数读取Excel文件中名为Sheet1
的工作表,将其转换为DataFrame对象,然后将其添加到data_frames
列表中。
最后,使用pd.concat
函数将data_frames
列表中的所有DataFrame对象连接起来,然后将连接后的结果存储在result
变量中,并打印出结果的前几行。
通过上述操作,就可以将多个Excel文件中的数据连接起来,实现了数据的整合和分析。
本站文章如无特殊说明,均为本站原创,如若转载,请注明出处:使用Python Pandas将多个文件中的Excel数据连接起来 - Python技术站