【机器学习】模型融合方法概述

2023年4月10日上午2:06 • 机器学习

我理解的Kaggle比赛中提高成绩主要有3个地方

特征工程
调参
模型融合

之前每次打比赛都只做了前两部分，最后的模型融合就是简单的加权平均，对于进阶的Stacking方法一直没尝试，这几天摸索了一下还是把Stacking方法给弄懂了。(本文重点讲解Stacking,Bagging和Boosting有很多权威的好教程，所以不详细介绍)最早的Stacking思想早些年就有论文发表，但是应用Stacking方法到比赛中的相关文章还是少之甚少，这有两篇如何在 Kaggle 首战中进入前 10%中Stacking只是作为一部分提到。因此决定自己写一篇关于模型融合的文章。本文不涉及到各个算法原理层次的深度，目的在于从宏观上帮助理解这几个模型融合方法。

一、Voting

模型融合其实也没有想象的那么高大上，从最简单的Voting说起，这也可以说是一种模型融合。假设对于一个二分类问题，有3个基础模型，那么就采取投票制的方法，投票多者确定为最终的分类。

二、Averaging

对于回归问题，一个简单直接的思路是取平均。稍稍改进的方法是进行加权平均。权值可以用排序的方法确定，举个例子，比如A、B、C三种基本模型，模型效果进行排名，假设排名分别是1，2，3，那么给这三个模型赋予的权值分别是3/6、2/6、1/6
这两种方法看似简单，其实后面的高级算法也可以说是基于此而产生的，Bagging或者Boosting都是一种把许多弱分类器这样融合成强分类器的思想。

三、Bagging

Bagging就是采用有放回的方式进行抽样，用抽样的样本建立子模型,对子模型进行训练，这个过程重复多次，最后进行融合。大概分为这样两步：

重复K次

有放回地重复抽样建模
训练子模型

2.模型融合

分类问题：voting

回归问题：average

Bagging算法不用我们自己实现，随机森林就是基于Bagging算法的一个典型例子，采用的基分类器是决策树。R和python都集成好了，直接调用。

四、Boosting

Bagging算法可以并行处理，而Boosting的思想是一种迭代的方法，每一次训练的时候都更加关心分类错误的样例，给这些分类错误的样例增加更大的权重，下一次迭代的目标就是能够更容易辨别出上一轮分类错误的样例。最终将这些弱分类器进行加权相加。引用加州大学欧文分校Alex Ihler教授的两页PPT

同样地，基于Boosting思想的有AdaBoost、GBDT等，在R和python也都是集成好了直接调用。
PS：理解了这两点，面试的时候关于Bagging、Boosting的区别就可以说上来一些，问Randomfroest和AdaBoost的区别也可以从这方面入手回答。也算是留一个小问题，随机森林、Adaboost、GBDT、XGBoost的区别是什么？

五、Stacking

Stacking方法其实弄懂之后应该是比Boosting要简单的，毕竟小几十行代码可以写出一个Stacking算法。我先从一种“错误”但是容易懂的Stacking方法讲起。
Stacking模型本质上是一种分层的结构，这里简单起见，只分析二级Stacking.假设我们有3个基模型M1、M2、M3。

1. 基模型M1，对训练集train训练，然后用于预测train和test的标签列，分别是P1，T1
【机器学习】模型融合方法概述
对于M2和M3，重复相同的工作，这样也得到P2，T2,P3,T3。

2. 分别把P1,P2,P3以及T1,T2,T3合并，得到一个新的训练集和测试集train2,test2. 【机器学习】模型融合方法概述

【机器学习】模型融合方法概述

3. 再用第二层的模型M4训练train2,预测test2,得到最终的标签列。【机器学习】模型融合方法概述

Stacking本质上就是这么直接的思路，但是这样肯定是不行的，问题在于P1的得到是有问题的，用整个训练集训练的模型反过来去预测训练集的标签，毫无疑问过拟合是非常非常严重的，因此现在的问题变成了如何在解决过拟合的前提下得到P1、P2、P3，这就变成了熟悉的节奏——K折交叉验证。我们以2折交叉验证得到P1为例,假设训练集为4行3列

【机器学习】模型融合方法概述

将其划分为2部分

【机器学习】模型融合方法概述

用traina训练模型M1，然后在trainb上进行预测得到preb3和pred4

在trainb上训练模型M1，然后在traina上进行预测得到pred1和pred2

然后把两个预测集进行拼接
【机器学习】模型融合方法概述
对于测试集T1的得到，有两种方法。注意到刚刚是2折交叉验证，M1相当于训练了2次，所以一种方法是每一次训练M1，可以直接对整个test进行预测，这样2折交叉验证后测试集相当于预测了2次，然后对这两列求平均得到T1。
或者直接对测试集只用M1预测一次直接得到T1。
P1、T1得到之后，P2、T2、P3、T3也就是同样的方法。理解了2折交叉验证，对于K折的情况也就理解也就非常顺利了。所以最终的代码是两层循环，第一层循环控制基模型的数目，每一个基模型要这样去得到P1，T1，第二层循环控制的是交叉验证的次数K，对每一个基模型，会训练K次最后拼接得到P1，取平均得到T1。这下再把@Wille博文中的那张图片放出来就很容易看懂了。

该图是一个基模型得到P1和T1的过程，采用的是5折交叉验证，所以循环了5次，拼接得到P1，测试集预测了5次，取平均得到T1。而这仅仅只是第二层输入的一列/一个特征，并不是整个训练集。再分析作者的代码也就很清楚了。也就是刚刚提到的两层循环。

python实现

用了一个泰坦尼克号的尝试了一下代码，从头到尾都是可以运行的。代码放在Github,针对其中一段关键的稍作分析

def get_oof(clf, x_train, y_train, x_test):
 oof_train = np.zeros((ntrain,))  
 oof_test = np.zeros((ntest,))
 oof_test_skf = np.empty((NFOLDS, ntest))  #NFOLDS行，ntest列的二维array
 for i, (train_index, test_index) in enumerate(kf): #循环NFOLDS次
     x_tr = x_train[train_index]
     y_tr = y_train[train_index]
     x_te = x_train[test_index]
     clf.fit(x_tr, y_tr)
     oof_train[test_index] = clf.predict(x_te)
     oof_test_skf[i, :] = clf.predict(x_test)  #固定行填充，循环一次，填充一行
 oof_test[:] = oof_test_skf.mean(axis=0)  #axis=0,按列求平均，最后保留一行
 return oof_train.reshape(-1, 1), oof_test.reshape(-1, 1)  #转置，从一行变为一列

这里只实现了针对一个基模型做K折交叉验证，因为P1和T1都是多行一列的结构，这里是先存储为一行多列，最后进行转置。
但是Stacking方法其实在R中也有集成好的可以调用。

caretEnsemble包下的caretStack()方法

关键代码如下：

algorithmList <- c('lda', 'rpart', 'glm', 'knn', 'svmRadial')
stackControl <- trainControl(method="repeatedcv", number=10, repeats=3, savePredictions=TRUE, classProbs=TRUE)
stack.glm <- caretStack(models, method="glm", metric="Accuracy", trControl=stackControl)

有一篇博文讲的比较详细

h2o包的h2o.stack()方法

关键代码如下：

nfolds <- 5  
glm1 <- h2o.glm(x = x, y = y, family = family,
             training_frame = train,
             nfolds = nfolds,
             fold_assignment = "Modulo",
             keep_cross_validation_predictions = TRUE)
gbm1 <- h2o.gbm(x = x, y = y, distribution = "bernoulli",
             training_frame = train,
             seed = 1,
             nfolds = nfolds,
             fold_assignment = "Modulo",
             keep_cross_validation_predictions = TRUE)
rf1 <- h2o.randomForest(x = x, y = y, # distribution not used for RF
                     training_frame = train,
                     seed = 1,
                     nfolds = nfolds,
                     fold_assignment = "Modulo",
                     keep_cross_validation_predictions = TRUE)
dl1 <- h2o.deeplearning(x = x, y = y, distribution = "bernoulli",
                     training_frame = train,
                     nfolds = nfolds,
                     fold_assignment = "Modulo",
                     keep_cross_validation_predictions = TRUE)
models <- list(glm1, gbm1, rf1, dl1)
metalearner <- "h2o.glm.wrapper"
stack <- h2o.stack(models = models,
                response_frame = train[,y],
                metalearner = metalearner,
                seed = 1,
                keep_levelone_data = TRUE)
# Compute test set performance:
perf <- h2o.ensemble_performance(stack, newdata = test)

详情见

本站文章如无特殊说明，均为本站原创，如若转载，请注明出处：【机器学习】模型融合方法概述 - Python技术站

机器学习

0 0 打赏

微信扫一扫

支付宝扫一扫

机器学习中常见的损失函数

上一篇 2023年4月10日上午2:06

【火炉炼AI】机器学习007-用随机森林构建共享单车需求预测模型

下一篇 2023年4月10日上午2:06

机器学习

这些是最热门的机器学习技术！

在上文中我们已经了解了机器学习的原理，就是模仿人类大脑进行学习的过程，通过让机器模仿这种学习过程实现所谓的“智能”。经过近几十年的发展，机器学习的方法也越来越成熟，主要有以下几种：监督学习无监督学习强化学习深度学习深度强化学习如上图所示，机器学习是从左往右的发展方向，每一阶段的学习方法都比上一代优秀了很多。下面简单介绍这几种机器学习方法的工作原…

2022年11月8日
000
吴恩达机器学习笔记15-假设陈述（Hypothesis Representation）

　　在分类问题中，要用什么样的函数来表示我们的假设呢？此前说过，希望我们的分类器的输出值在0 和1 之间，因此，我们希望想出一个满足某个性质的假设函数，这个性质是它的预测值要在0 和1 之间。回顾在一开始提到的乳腺癌分类问题，我们可以用线性回归的方法求出适合数据的一条直线：　　根据线性回归模型我们只能预测连续的值，然而对于分类问题，我们需要输出0 或1，…

机器学习 2023年4月10日
000
《机器学习基石》—线性回归

错误衡量使用平方错误：注：这里Eout计算是在考虑噪声的情况下，可以将x和y看作满足一个联合概率分布。 2 线性回归算法先把训练集误差Ein推导成矩阵形式：即：可以证明Ein关于w是连续，可微的凸函数，因此最小的点就在梯度为0的地方，那么剩下的问题就是来求梯度为0的w：先把Ein展开成w的二次形式：求这个函数的梯度，与w是一维的情况类似…

机器学习 2023年4月12日
000
又拍云之 Keepalived 高可用部署

在聊 Keepalived 之前，我们需要先简单了解一下 VRRP。VRRP（Virtual Router Redundancy Protocol）即虚拟路由冗余协议，是专门为了解决静态路由的高可用而设计的。简单说下它的工作原理：虚拟路由器由多个路由器组成，每个路由器都有各自的 IP 和共同的 VRID(0-255)，其中一个 VRRP 路由器通过竞选成为…

机器学习 2023年4月11日
000
机器学习-朴素贝叶斯原理及Python实现

机器学习-朴素贝叶斯原理及Python实现贝叶斯公式 P(A|B) = (P(B|A)P(A))/P(B) 举例：苹果10个，有2个黄色；梨10个，有6个黄色，求拿出一个黄色水果，是苹果的概率。代入公式： P(苹果|黄色) = (P(黄色|苹果)P(苹果))/P(黄色) P(黄色) = (2+6)/20 = 2/5 P(苹果) = 10/20 = 1/2…

机器学习 2023年4月13日
000
拿到机器学习数据后，该如何对数据进行划分？

在处理机器学习任务时，我们都需要使用数据，当然，有时候数据集可以很大，有时候数据集数量不是很理想，那么如何针对这些数据得出更加有效的模型呢？大型数据集 Idea #1：当我们拿到数据集后，如果将所有数据进行训练的话这样会导致模型见过所有的数据，如果再用这些数据进行测试的话，效果会非常好，但我们知道，这其实是一种过拟合现象，我们的模型在当前数据集中，永远…

机器学习 2023年4月11日
000
机器学习-决策树的基本思想

机器学习-决策树的基本思想决策树算法是最早的机器学习算法之一。算法框架 1.决策树主函数各种决策树的主函数都大同小异，本质上是一个递归函数。该函数的主要功能是按照某种规则生长出决策树的各个分支节点，并根据终止条件结束算法。一般来讲，主函数需要完成如下几个功能。（1）输入需要分类的数据集和类别标签（2）根据某种分类规则得到最优的划分特征，并创建特征的…

机器学习 2023年4月13日
000
机器学习：集成算法 – bagging、boosting、adaboost

不同的分类算法各有优缺点，可以将不同的分类器组合起来这种组合被称为集成方法（ensemble method）或者元算法（meta-algorithm）使用集成方法有多种形式 ○ 可以是不同算法的集成 ○ 可以是同一算法在不同设置下的集成 ○ 可以是数据集不同部分分配给不同分类器之后的集成 bagging （Bootstrap aggregating，引导聚…

机器学习 2023年4月10日
000