Pandas - 合并两个具有不同列的数据框架

Pandas – 合并两个具有不同列的数据框架

2023年3月27日下午3:11 • python-answer

当我们需要整合不同数据源、不同数据集时，常常需要进行数据框架间的合并。在Pandas中，通过merge()函数可以较为方便地实现数据框架间的合并。在两个具有不同列的数据框架合并时，我们需要注意以下几个方面：

合并键：在两个数据框架合并的过程中，我们需要指定合并键。合并键可以是某一个或某几个相同的标识符，将数据框架按照这个标识符进行合并。在指定合并键时，需要注意确保被合并的两个数据框架的相应列都存在这个标识符。
合并方式：在merge()函数中，我们需要指定合并方式。默认情况下，merge()函数使用inner（内连接）方式进行合并，即只保留两个数据框架中都存在的行。除此之外，merge()函数还支持left、right和outer等多种合并方式。
重复列名：当两个被合并的数据框架中存在相同列名的列时，我们需要在合并时进行重新命名这些列的操作。可以通过suffixes参数来指定重命名的方式，例如suffixes=('_1', '_2')，表示在两个数据框架中存在相同列名的列上，分别加上"_1"和"_2"后缀，以区分这两列。

接下来，我们以一个实例来讲解合并两个具有不同列的数据框架：

假设我们有两个数据框架，df1和df2，它们的部分数据如下：

import pandas as pd

df1 = pd.DataFrame({'key': ['K0', 'K1', 'K2', 'K3'],
                    'A': ['A0', 'A1', 'A2', 'A3'],
                    'B': ['B0', 'B1', 'B2', 'B3']})

df2 = pd.DataFrame({'key': ['K0', 'K1', 'K2', 'K3'],
                    'C': ['C0', 'C1', 'C2', 'C3'],
                    'D': ['D0', 'D1', 'D2', 'D3']})

其中，df1包含了'A'和'B'两列，df2包含了'C'和'D'两列。我们需要将这两个数据框架合并，得到一个包含所有列的新数据框架。

merged_df = pd.merge(df1, df2, on='key')
print(merged_df)

上述代码中，首先使用pd.merge()函数，将df1和df2按照'key'列进行内连接合并。由于两个数据框架中都存在'key'列，所以可以使用on参数指定合并键。

得到的合并结果如下：

  key   A   B   C   D
0  K0  A0  B0  C0  D0
1  K1  A1  B1  C1  D1
2  K2  A2  B2  C2  D2
3  K3  A3  B3  C3  D3

可以看到，得到的新数据框架包含了所有列。

此外，如果存在重复列名的情况，我们还需要进行重命名。例如：

df1 = pd.DataFrame({'key': ['K0', 'K1', 'K2', 'K3'],
                    'A': ['A0', 'A1', 'A2', 'A3'],
                    'B': ['B0', 'B1', 'B2', 'B3']})

df2 = pd.DataFrame({'key': ['K0', 'K1', 'K2', 'K3'],
                    'B': ['C0', 'C1', 'C2', 'C3'],
                    'D': ['D0', 'D1', 'D2', 'D3']})

merged_df = pd.merge(df1, df2, on='key', suffixes=('_left', '_right'))
print(merged_df)

由于df1和df2中都存在'B'列，因此需要使用suffixes参数将这些列进行重新命名。执行结果如下：

  key   A B_left B_right   D
0  K0  A0     B0      C0  D0
1  K1  A1     B1      C1  D1
2  K2  A2     B2      C2  D2
3  K3  A3     B3      C3  D3

可以看到，新数据框架中的'B'列被重命名为'B_left'和'B_right'，以区分这两列。

本站文章如无特殊说明，均为本站原创，如若转载，请注明出处：Pandas – 合并两个具有不同列的数据框架 - Python技术站

Pandas – 合并两个具有不同列的数据框架

相关文章