pandas进行数据的交集与并集方式的数据合并方法

首先，我们需要了解pandas中可以使用merge()函数和concat()函数进行数据合并。

使用merge函数进行数据合并

merge()函数是pandas中用于将不同DataFrame中的数据合并的函数，它的语法如下：

pandas.merge(left, right, how='inner', on=None, left_on=None, right_on=None,
            left_index=False, right_index=False, sort=False, suffixes=('_x', '_y'),
            copy=True, indicator=False, validate=None)

left: 需要合并的左侧DataFrame；
right: 需要合并的右侧DataFrame；
how: 合并方式，其取值可以为'left', 'right', 'outer', 'inner'，默认为'inner'；
on: 合并的字段，可以是列名或者列表；
left_on: 左侧DataFrame需要合并的字段；
right_on: 右侧DataFrame需要合并的字段；
left_index: 是否使用左侧DataFrame的索引作为合并依据，默认为False；
right_index: 是否使用右侧DataFrame的索引作为合并依据，默认为False；
sort: 是否对合并的结果进行排序，默认为False；
suffixes: 在合并时，如果左侧DataFrame和右侧DataFrame中有重复的列名，将会自动在列名后面添加_x或_y，可以通过suffixes参数修改；
copy: 如果为True，则会将两个DataFrame拷贝一份进行合并，并返回一个新的DataFrame，否则，将直接在原始DataFrame上进行合并；
indicator: 如果为True，则会在合并结果的输出中添加一个'_merge'列，表示该行数据的合并情况，默认为False；
validate: 验证合并的方案是否合理。可选值有None, 'one_to_one', 'one_to_many', 'many_to_one', 'many_to_many'。

示例1：

下面的代码演示了如何将两个DataFrame的数据进行合并：

import pandas as pd

df1 = pd.DataFrame({'key': ['A', 'B', 'C', 'D'], 'value': [1, 2, 3, 4]})
df2 = pd.DataFrame({'key': ['B', 'D', 'E', 'F'], 'value': [5, 6, 7, 8]})

merged_df = pd.merge(df1, df2, on='key')
print(merged_df)

输出结果为：

  key  value_x  value_y
0   B        2        5
1   D        4        6

我们可以看到，通过merge函数合并后，两个DataFrame中key值为B和D的数据被保留，其他数据被丢弃。

使用concat函数进行数据合并

concat()函数用于将多个DataFrame合并成一个DataFrame。常见的axis参数取值是0和1，分别表示对行和列进行合并。其语法如下：

pandas.concat(objs, axis=0, join='outer', ignore_index=False, keys=None, sort=False,
                copy=True)

objs: 需要合并的多个DataFrame，可以通过列表的方式传入；
axis: 合并方向，为0或1，默认为0；
join: 合并方式，取值可以为'outer'或'inner'，默认为'outer'；
ignore_index: 是否忽略原始DataFrame的索引并重新生成一个新的索引，默认为False；
keys: 在合并多个DataFrame时，可以为其指定一个keys参数，用于区分各个DataFrame的数据；
sort: 是否对合并的结果进行排序，默认为False；
copy: 如果为True，则会将原始DataFrame拷贝一份进行合并，并返回一个新的DataFrame，否则，将直接在原始DataFrame上进行合并。

示例2：

下面的代码演示了如何将两个DataFrame的数据进行合并：

import pandas as pd

df1 = pd.DataFrame({'A': ['A0', 'A1', 'A2', 'A3'],
                   'B': ['B0', 'B1', 'B2', 'B3'],
                   'C': ['C0', 'C1', 'C2', 'C3'],
                   'D': ['D0', 'D1', 'D2', 'D3']})

df2 = pd.DataFrame({'A': ['A4', 'A5', 'A6', 'A7'],
                   'B': ['B4', 'B5', 'B6', 'B7'],
                   'C': ['C4', 'C5', 'C6', 'C7'],
                   'D': ['D4', 'D5', 'D6', 'D7']})

df3 = pd.DataFrame({'A': ['A8', 'A9', 'A10', 'A11'],
                   'B': ['B8', 'B9', 'B10', 'B11'],
                   'C': ['C8', 'C9', 'C10', 'C11'],
                   'D': ['D8', 'D9', 'D10', 'D11']})

pd.concat([df1, df2, df3], axis=0)

输出结果为：

     A    B    C    D
0   A0   B0   C0   D0
1   A1   B1   C1   D1
2   A2   B2   C2   D2
3   A3   B3   C3   D3
0   A4   B4   C4   D4
1   A5   B5   C5   D5
2   A6   B6   C6   D6
3   A7   B7   C7   D7
0   A8   B8   C8   D8
1   A9   B9   C9   D9
2  A10  B10  C10  D10
3  A11  B11  C11  D11

我们可以看到，通过concat函数合并后，三个DataFrame的数据按照行进行了合并，成为了一个新的DataFrame。

本站文章如无特殊说明，均为本站原创，如若转载，请注明出处：pandas进行数据的交集与并集方式的数据合并方法 - Python技术站

pandas进行数据的交集与并集方式的数据合并方法

相关文章