详解pandas数据合并与重塑（pd.concat篇）

下面是“详解pandas数据合并与重塑（pd.concat篇）”的完整攻略：

1. 引言

在数据处理过程中经常需要将不同的数据源进行合并，pandas中提供了很多方法来完成这个任务。其中，pd.concat是一种非常常用的合并方法，它可以按行或者按列将数据合并。在本篇攻略中，我们将详细讲解pd.concat的使用方法。

2. pd.concat的使用方法

2.1 按行合并数据

pd.concat可以按行将多个DataFrame进行合并。例如，我们有两个DataFrame，分别为df1和df2，它们的列名和数据类型都是相同的，如下所示：

import pandas as pd
import numpy as np

df1 = pd.DataFrame({'A': ['A0', 'A1', 'A2', 'A3'],
                    'B': ['B0', 'B1', 'B2', 'B3'],
                    'C': ['C0', 'C1', 'C2', 'C3'],
                    'D': ['D0', 'D1', 'D2', 'D3']})
df2 = pd.DataFrame({'A': ['A4', 'A5', 'A6', 'A7'],
                    'B': ['B4', 'B5', 'B6', 'B7'],
                    'C': ['C4', 'C5', 'C6', 'C7'],
                    'D': ['D4', 'D5', 'D6', 'D7']})

现在，我们要将df1和df2按行进行合并，可以使用pd.concat函数，如下所示：

result = pd.concat([df1, df2])

这时，result就是合并后的DataFrame，如下所示：

    A  B  C  D
0  A0  B0  C0  D0
1  A1  B1  C1  D1
2  A2  B2  C2  D2
3  A3  B3  C3  D3
0  A4  B4  C4  D4
1  A5  B5  C5  D5
2  A6  B6  C6  D6
3  A7  B7  C7  D7

注意，pd.concat函数默认按行进行合并，如果需要按列进行合并，需要通过设置axis参数来实现，下面将会讲解。

2.2 按列合并数据

除了按行合并数据以外，pd.concat还可以按列合并数据。假设我们有两个DataFrame，分别为df3和df4，列名和数据类型也分别相同，如下所示：

df3 = pd.DataFrame({'A': ['A0', 'A1', 'A2', 'A3'],
                    'B': ['B0', 'B1', 'B2', 'B3'],
                    'C': ['C0', 'C1', 'C2', 'C3'],
                    'D': ['D0', 'D1', 'D2', 'D3']})
df4 = pd.DataFrame({'E': ['E4', 'E5', 'E6', 'E7'],
                    'F': ['F4', 'F5', 'F6', 'F7'],
                    'G': ['G4', 'G5', 'G6', 'G7'],
                    'H': ['H4', 'H5', 'H6', 'H7']})

现在，我们要将df3和df4按列进行合并，可以使用pd.concat函数，如下所示：

result = pd.concat([df3, df4], axis=1)

这时，result就是合并后的DataFrame，如下所示：

    A  B  C  D   E   F   G   H
0  A0  B0  C0  D0  E4  F4  G4  H4
1  A1  B1  C1  D1  E5  F5  G5  H5
2  A2  B2  C2  D2  E6  F6  G6  H6
3  A3  B3  C3  D3  E7  F7  G7  H7

注意，按列合并时，需要将axis参数设置为1，表示按列进行合并。

2.3 索引重置

在进行数据合并时，可能会出现重复索引的问题。Pandas提供了reset_index方法来解决这个问题。下面，我们将通过一个示例来演示reset_index的使用方法。

假设我们有两个DataFrame，分别为df5和df6，如下所示：

df5 = pd.DataFrame({'key': ['K0', 'K1', 'K2', 'K3'],
                    'A': ['A0', 'A1', 'A2', 'A3'],
                    'B': ['B0', 'B1', 'B2', 'B3']})

df6 = pd.DataFrame({'key': ['K0', 'K1', 'K2', 'K3'],
                    'C': ['C0', 'C1', 'C2', 'C3'],
                    'D': ['D0', 'D1', 'D2', 'D3']})

现在，我们要将df5和df6按key列进行合并，并且保留重复的key，可以使用pd.concat函数，如下所示：

result = pd.concat([df5, df6], axis=1)

这时，result就是合并后的DataFrame，但是发现key列出现了重复的值。如下所示：

   key   A   B  key   C   D
0  K0  A0  B0  K0  C0  D0
1  K1  A1  B1  K1  C1  D1
2  K2  A2  B2  K2  C2  D2
3  K3  A3  B3  K3  C3  D3

为了解决这个问题，我们需要将索引重置。具体来说，我们可以将key列设置为索引，然后再将索引重置。修改后的代码如下所示：

result = pd.concat([df5.set_index('key'), df6.set_index('key')], axis=1)
result = result.reset_index()

这时，result就是合并后的DataFrame，且key列不再出现重复的值。如下所示：

   key   A   B   C   D
0  K0  A0  B0  C0  D0
1  K1  A1  B1  C1  D1
2  K2  A2  B2  C2  D2
3  K3  A3  B3  C3  D3

至此，我们详细讲解了pd.concat的使用方法，包括按行合并、按列合并和索引重置。感谢您的阅读！

3. 示例说明

3.1 示例1：合并之后列名重复的情况

下面是一个例子，演示了如果合并后出现列名重复的情况，应该如何处理。

df1 = pd.DataFrame({'key': ['A', 'B', 'C', 'D'],
                    'value': [1, 2, 3, 4]})
df2 = pd.DataFrame({'key': ['E', 'F', 'G', 'H'],
                    'value': [5, 6, 7, 8]})
df3 = pd.DataFrame({'key': ['I', 'J', 'K', 'L'],
                    'value': [9, 10, 11, 12]})
df4 = pd.concat([df1, df2, df3])

合并完成后，会出现列名重复的情况，如下所示：

  key  value key  value key  value
0   A      1   E      5   I      9
1   B      2   F      6   J     10
2   C      3   G      7   K     11
3   D      4   H      8   L     12

对于这种情况，我们可以通过设置pd.concat函数的keys参数来设置每个DataFrame的列名前缀，如下所示：

df4 = pd.concat([df1, df2, df3], keys=['df1', 'df2', 'df3'])

这时，合并完成后的列名就会带上前缀，如下所示：

    key  value
df1 0   A      1
    1   B      2
    2   C      3
    3   D      4
df2 0   E      5
    1   F      6
    2   G      7
    3   H      8
df3 0   I      9
    1   J     10
    2   K     11
    3   L     12

3.2 示例2：将多个csv文件合并成一个文件

下面是一个例子，演示了如何将多个csv文件合并成一个文件。

假设我们有三个csv文件，分别为data1.csv、data2.csv和data3.csv。这三个文件都有两列，分别为编号（id）和数值（value）。我们要将这三个文件合并成一个文件，可以使用pd.concat函数，如下所示：

import os

files = ['data1.csv', 'data2.csv', 'data3.csv']

dfs = []
for filename in files:
    df = pd.read_csv(filename)
    dfs.append(df)

result = pd.concat(dfs)
result.to_csv('all_data.csv', index=False)

其中，首先需要将三个文件读入到不同的DataFrame中，然后再使用pd.concat函数将它们合并起来。最后，将合并后的结果写入到一个新的csv文件中。

本站文章如无特殊说明，均为本站原创，如若转载，请注明出处：详解pandas数据合并与重塑（pd.concat篇） - Python技术站