上一篇文章介绍了LightGBM算法的特点,总结起来LightGBM采用Histogram算法进行特征选择以及采用Leaf-wise的决策树生长策略,使其在一批以树模型为基模型的boosting算法中脱颖而出。在时间和空间上都更胜一筹,准确率也比其他模型表现得更好。这些模型在处理一般规模的数据时,单机即可以解决,然而当数据规模更大时,即需要进行分布式计算,分担每台机器(worker)的压力。这篇文章介绍LightGBM的两种并行学习算法(Feature Parallel & Data Parallel),以及他们较传统并行算法的特别之处。

 Feature Parallel

特征并行算法目的是在决策树生成过程中的每次迭代,高效地找到最优特征分裂点。特征并行的主要思想是在不同机器在不同的特征集合上分别寻找最优的分割点,然后在机器间同步最优的分割点。

  • 传统的特征并行算法

    1. 根据不同的特征子集,将数据集进行垂直切分。(不同机器worker有不同的特征子集)
    2. 每个worker寻找局部的最优分裂特征以及分裂点。
    3. 不同worker之间进行网络传输,交换最优分裂信息,最终得到最优的分裂信息。
    4. 具有最优分裂特征的worker,局部进行分裂,并将分裂结果广播到其他worker。
    5. 其他worker根据接收到的数据进行切分数据。

    该方法不能有效地加速特征选择的效率,当数据量#data很大时,该并行方法不能加快效率。并且,最优的分裂结果需要在worker之间进行传输,需要消耗很多的传输资源以及传输时间。

  • LightGBM的特征并行算法 
    LightGBM并没有垂直的切分数据集,而是每个worker都有全量的训练数据,因此最优的特征分裂结果不需要传输到其他worker中,只需要将最优特征以及分裂点告诉其他worker,worker随后本地自己进行处理。处理过程如下:

    1. 每个worker在基于局部的特征集合找到最优分裂特征。
    2. workder间传输最优分裂信息,并得到全局最优分裂信息。
    3. 每个worker基于全局最优分裂信息,在本地进行数据分裂,生成决策树。

    然而,当数据量很大时,特征并行算法还是受限于特征分裂效率。因此,当数据量大时,推荐使用数据并行算法。

- Data Parallel

  • 传统的数据并行算法

    1. 水平切分数据集。
    2. 每个worker基于数据集构建局部特征直方图(Histogram)。
    3. 归并所有局部的特征直方图,得到全局直方图。
    4. 找到最优分裂信息,进行数据分裂。

    缺点:网络传输代价比较大,如果使用point-to-point的传输算法,每个worker的传输代价为O(#machine * #feature * #bin). 如果使用All Reduce并行算子,传输代价为O(2* #feature * #bin).

  • LightGBM的数据并行算法 
    1. LightGBM算法使用Reduce Scatter并行算子归并来自不同worker的不同特征子集的直方图,然后在局部归并的直方图中找到最优局部分裂信息,最终同步找到最优的分裂信息。
    2. 除此之外,LightGBM使用直方图减法加快训练速度。我们只需要对其中一个子节点进行数据传输,另一个子节点可以通过histogram subtraction得到。
    3. LightGBM可以将传输代价降低为O(0.5 * #feature * #bin)。