Python Pandas - INNER JOIN和LEFT SEMI JOIN的区别

Python Pandas – INNER JOIN和LEFT SEMI JOIN的区别

2023年3月27日下午12:09 • python-answer

Python Pandas是一个用于数据处理和分析的库，其中包含了多种不同的数据合并方式。其中包括INNER JOIN和LEFT SEMI JOIN。这两种合并方式都能帮助用户将两个表格的数据进行整合，但具体来说，它们有以下的不同点：

INNER JOIN(内连接)

INNER JOIN是传统意义上的交集，即将两个表中公共的部分作为结果返回。它取所有在两个表中都存在的值，并将这些值结合起来。换言之，对于两个表A和B，INNER JOIN返回的结果是两个表的交集，并且只包括在A和B中都存在的值。

import pandas as pd

df1 = pd.DataFrame({'key': ['A', 'B', 'C', 'D'], 'value': [1, 2, 3, 4]})
df2 = pd.DataFrame({'key': ['B', 'D', 'E', 'F'], 'value': [5, 6, 7, 8]})

result = pd.merge(df1, df2, on='key', how='inner')

print(result)

在上述代码中，我们创建了两个DataFrame对象(df1和df2)，并且根据"key"这个列进行INNER JOIN操作。结果表明，结果只包括在df1和df2中都存在的键(B和D)，并且包括它们在df1和df2中的值(2, 4和5, 6)。

LEFT SEMI JOIN(左半连接)

LEFT SEMI JOIN是INNER JOIN的一种变种，在一些情况下可能更加方便。LEFT SEMI JOIN只返回左表（即第一个表）中满足条件的行，而不是INNER JOIN的结果。这意味着把右表的列添加到结果中是没有必要的。LEFT SEMI JOIN通常用于筛选一个表中的行，并选择与另一个表进行JOIN操作。

import pandas as pd

df1 = pd.DataFrame({'key': ['A', 'B', 'C', 'D'], 'value': [1, 2, 3, 4]})
df2 = pd.DataFrame({'key': ['B', 'D', 'E', 'F'], 'value': [5, 6, 7, 8]})

result = pd.merge(df1, df2, on='key', how='left', indicator=True).query("_merge == 'left_only'").drop('_merge', axis=1)

print(result)

在上述代码中，我们创建了两个DataFrame对象(df1和df2)，并且根据"key"这个列进行LEFT SEMI JOIN操作。结果表明，LEFT SEMI JOIN只返回左表中满足条件的行(A和C)，而不包括右表中的任何行，同时我们使用query函数选择"_merge == 'left_only'"来取得左表之中和右表没有匹配的行。

综上所述，INNER JOIN和LEFT SEMI JOIN都是将两个表合并为一个表的方法，但是它们的结果有所不同。INNER JOIN返回两个表的交集，而LEFT SEMI JOIN则只返回左表中符合条件的行；此外，LEFT SEMI JOIN还有助于我们对单个表进行筛选。

本站文章如无特殊说明，均为本站原创，如若转载，请注明出处：Python Pandas – INNER JOIN和LEFT SEMI JOIN的区别 - Python技术站