如何用Python合并一个文件夹中的所有excel文件

2023年3月27日下午12:07 • python-answer

yizhihongxing

想要用 Python 合并一个文件夹中的所有 Excel 文件，可以分以下几个步骤实现：

导入所需的库
我们需要首先导入 pandas 和 os 两个库，pandas 库用于数据处理，而 os 库用于操作文件和目录。

import pandas as pd
import os

获取文件夹路径
我们需要获取要处理的 Excel 文件所在的文件夹路径。你可以手动输入也可以通过代码自动获取。

folder_path = r'C:\data\excel_files'

遍历文件夹
通过 os 库提供的遍历方法，我们可以获取指定目录下的所有 Excel 文件。

file_names = os.listdir(folder_path)
excel_files = [f for f in file_names if f.endswith('.xlsx') or f.endswith('.xls')]

读取 Excel 文件
使用 pandas 库来读取 Excel 文件，可以使用 pandas.read_excel 方法。将读取的 Excel 文件存储在 DataFrame 中。

all_data = pd.DataFrame()
for file in excel_files:
    df = pd.read_excel(os.path.join(folder_path, file))
    all_data = all_data.append(df, ignore_index=True)

合并 Excel 文件
通过 DataFrame 的 concat 方法，我们可以将所有读取的 Excel 文件合并成一个数据框。

merged_data = pd.concat([df1, df2, df3, ...], ignore_index=True)

此时，我们已经通过 Python 合并了一个文件夹中的所有 Excel 文件，数据存储在 merged_data 数据框中。最后，你可以将合并后的数据保存成一个新的 Excel 文件。

merged_data.to_excel('merged_data.xlsx', index=False)

完整代码如下：

import pandas as pd
import os

folder_path = r'C:\data\excel_files'
file_names = os.listdir(folder_path)
excel_files = [f for f in file_names if f.endswith('.xlsx') or f.endswith('.xls')]

all_data = pd.DataFrame()
for file in excel_files:
    df = pd.read_excel(os.path.join(folder_path, file))
    all_data = all_data.append(df, ignore_index=True)

all_data.to_excel('merged_data.xlsx', index=False)

希望这能帮到你。

本站文章如无特殊说明，均为本站原创，如若转载，请注明出处：如何用Python合并一个文件夹中的所有excel文件 - Python技术站

赞 (0)

微信扫一扫

微信扫一扫

支付宝扫一扫

支付宝扫一扫

Pandas内置数据可视化ML

上一篇 2023年3月27日

Python中的pandas.eval()函数

下一篇 2023年3月27日

用Python Seaborn进行数据可视化

Seaborn是一种基于Matplotlib的Python数据可视化库，它提供了一些默认的美化配置，能够轻松地创建各种类型的图表。下面详细讲解如何用Python Seaborn进行数据可视化：安装Seaborn库首先，我们需要安装Seaborn库。可以用以下命令安装Seaborn： pip install seaborn 导入Seaborn库在开始使…

python-answer 2023年3月27日
000
用SQLAlchemy将Pandas连接到数据库

使用 SQLAlachemy 将 Pandas 连接到数据库可以方便地将数据从 Pandas DataFrame 写入到数据库中。下面是详细的步骤：首先导入需要的库： import pandas as pd from sqlalchemy import create_engine 创建连接数据库的引擎： engine = create_engine(‘my…

python-answer 2023年3月27日
000
Spark DataFrame和Pandas DataFrame的区别

Spark DataFrame和Pandas DataFrame都是数据分析工具中被广泛使用的数据结构，但它们的设计和功能有很大的区别。 Spark DataFrame是一种基于分布式计算框架Spark的分布式数据集合。Spark DataFrame的设计使用了类似于SQL的查询结构，支持大规模的数据处理和分布式计算。Spark DataFrame的底层实现…

python-answer 2023年3月27日
000
在Pandas中创建一个流水线

在Pandas中流水线是通过使用Pipeline类来实现的。Pipeline可以将多个数据转换步骤组合在一起，执行流水线处理时，将按照给定的顺序依次执行各个步骤，最终将处理结果输出。下面是创建一个简单的流水线的示例： from sklearn.pipeline import Pipeline from sklearn.preprocessing impor…

python-answer 2023年3月27日
000
用Matplotlib在条形图上绘制Pandas数据框架的多列数据

在Matplotlib中，使用bar或barh方法可以绘制条形图。在Pandas中，数据框架（DataFrame）支持直接使用plot.bar()或plot.barh()方法来绘制条形图。具体地说，如果要在条形图上绘制Pandas数据框架的多列数据，可以采用以下步骤：导入必要的模块和数据 “`python import matplotlib.pyplo…

python-answer 2023年3月27日
000
Pandas – 填补分类数据中的NaN

Pandas是一个基于NumPy的数据处理库，是Python数据分析的重要工具，广泛用于数据清洗、处理和分析。其中填补数据中的NaN（缺失值）是Pandas的一项重要操作。在分类数据中，NaN表示缺失值。通常，我们使用在该列中频率最高的值来填补这些NaN。在这个过程中，我们需要使用Pandas中的fillna()方法。首先，我们需要读取数据并选择要处理的…

python-answer 2023年3月27日
000
用Pandas和Seaborn进行KDE绘图可视化

KDE（核密度估计）是一种非参数估计方法，用于从数据样本中获取概率密度函数。Pandas和Seaborn是两个Python数据分析库，它们提供了很多实用的功能和工具，可用于数据可视化和处理。为了用Pandas和Seaborn进行KDE绘图可视化，我们需要完成以下步骤：加载数据：使用Pandas库中的read_csv()函数或其他读取文件数据的函数从数据文…

python-answer 2023年3月27日
000
Python中的pandas.array()函数

首先需要说明的是，pandas.array()函数是pandas 1.0.0版本引入的新函数，用于创建pandas中的array类型。与numpy中的array不同，pandas的array支持混合数据类型，可以容纳不同类型的数据。 pandas.array()函数主要有两个参数： data：输入数据，可以是列表、数组、元组、字典等数据结构 dtype： …

python-answer 2023年3月27日
002

合作推广

合作推广

返回顶部