使用Python Pandas将多个文件中的Excel数据连接起来

2023年3月27日下午2:19 • python-answer

首先，需要确保安装了pandas库。可以通过终端或命令行窗口中运行以下命令来安装pandas库：

pip install pandas

接着，将需要连接的Excel文件放置在同一个目录下。为了方便操作，可以将这些文件以相同的文件命名格式放在同一个子目录中。

下面是一个示例，假设我们有三个Excel文件，分别命名为file1.xlsx、file2.xlsx和file3.xlsx，它们均包含名为Sheet1的工作表，我们将它们放在名为data的子目录中。这样，文件的目录结构如下：

.
└── data
    ├── file1.xlsx
    ├── file2.xlsx
    └── file3.xlsx

接下来，可以使用pandas库中的concat函数来将这些Excel文件的数据连接起来。具体操作如下：

import pandas as pd
import os

# 获取当前工作目录
cwd = os.getcwd()
# 拼接数据子目录的路径
data_dir = os.path.join(cwd, 'data')

# 存储多个Excel文件数据的列表
data_frames = []
# 遍历数据子目录下的所有Excel文件
for file in os.listdir(data_dir):
    if file.endswith('.xlsx'):
        # 读取Excel文件中名为Sheet1的工作表
        df = pd.read_excel(os.path.join(data_dir, file), sheet_name='Sheet1')
        # 将数据添加到列表中
        data_frames.append(df)

# 使用pandas库中的concat函数将多个DataFrame连接起来
result = pd.concat(data_frames)

# 打印连接后的结果
print(result.head())

上述代码中，首先用os库获取当前工作目录，再使用os.path.join函数拼接出数据子目录的路径。接下来创建一个空的列表data_frames，用于存储读取出的多个DataFrame对象。然后使用os.listdir函数遍历数据子目录下的所有文件，如果文件名以.xlsx结尾，则使用pd.read_excel函数读取Excel文件中名为Sheet1的工作表，将其转换为DataFrame对象，然后将其添加到data_frames列表中。

最后，使用pd.concat函数将data_frames列表中的所有DataFrame对象连接起来，然后将连接后的结果存储在result变量中，并打印出结果的前几行。

通过上述操作，就可以将多个Excel文件中的数据连接起来，实现了数据的整合和分析。

本站文章如无特殊说明，均为本站原创，如若转载，请注明出处：使用Python Pandas将多个文件中的Excel数据连接起来 - Python技术站