在Python中把多个CSV文件读入独立的DataFrames中

2023年3月27日下午3:32 • python-answer

在Python中想要把多个CSV文件读入独立的DataFrames中，可以使用Python的pandas库。下面是一个详细的攻略：

步骤1：导入pandas库

首先需要导入pandas库，其常用的别名是pd。可以使用以下代码导入：

import pandas as pd

要读入CSV文件，可以使用pandas的read_csv函数。可以使用以下代码来读取某一CSV文件：

df_1 = pd.read_csv('file_path_1.csv')

这里我们用变量df_1来存储第一个CSV文件的DataFrame，其中file_path_1.csv是文件路径。如果你的CSV文件是包含标头的，则可以在read_csv函数中使用header = 0参数来告诉pandas读取标头。例如：

df_1 = pd.read_csv('file_path_1.csv', header=0)

对于多个CSV文件，可以使用for循环来读取每一个文件。例如，如果有三个文件需要读取，可以使用以下代码：

dfs = []
for i in range(3):
    file_path = 'file_path_{}.csv'.format(i+1)
    dfs.append(pd.read_csv(file_path, header=0))

这里我们用一个空的list（dfs）来存储每一个DataFrame。range(3)生成0、1、2的数字，即表示我们要读取三个文件。在for循环中，我们读取每一个文件，并将其添加到dfs列表中。

现在我们已经将多个CSV文件读取到独立的DataFrames中了，可以对这些DataFrame进行各种数据操作，例如数据筛选、去重、合并等。以下是一些示例代码：

可以使用pandas的loc或iloc函数来筛选数据，以df_1为例：

a = df_1.loc[df_1['column_name'] == 'value']

此代码可以从df_1中选出所有column_name列等于value的行。

可以使用pandas的drop_duplicates函数来去除重复数据：

df_1.drop_duplicates(subset=['column_1', 'column_2'], keep='first', inplace=True)

此代码将df_1中列column_1和column_2相同的行进行去重，并且将去重后的结果保存在df_1中。

可以使用pandas的merge函数将多个DataFrame合并：

df_merged = pd.merge(df_1, df_2, on='column_name', how='inner')

此代码用column_name列来合并df_1和df_2，使用内连接（inner join）的方式。合并后的结果保存在df_merged中。

要将DataFrame保存为CSV文件，可以使用to_csv函数。例如，要将第二个DataFrame保存到名为file_path_2.csv的文件中，可以使用以下代码：

df_2.to_csv('file_path_2.csv', index=False)

这里index=False表示不将索引写入输出CSV文件，如果需要保留索引，可以将其设为True。

以上就是使用Python将多个CSV文件读取到独立的DataFrames中的攻略。当然，如果你想要更详细的资料，你可以在网上搜索更多的文档和教程。

本站文章如无特殊说明，均为本站原创，如若转载，请注明出处：在Python中把多个CSV文件读入独立的DataFrames中 - Python技术站