机器学习笔记十三：Ensemble思想(上)

2023年4月15日上午9:38 • 机器学习

从上面几篇的决策树開始,就能够開始进入到集成学习(ensemble learning)了,与其说集成学习是一种算法,倒不如说集成学习是一种思想.
集成学习的思想也是非常自然非常符合人类直观理解的. 用通俗的不能更通俗的话来说,要是一个机器学习器解决不了问题,那就多训练几个.再把这些学习器结合起来完毕机器学习任务. 能够类比开会,一群人讨论得到的解决的方法一般比一个人拍板的要好.
用过集成学习之后,一般来说,效果都会比某些单一的算法效果要好.所以,无论是为了排名还是为了其它的东西,kaggle等机器学习竞赛一大部分方案都会使用集成学习的,你懂得.
这篇仅仅讲集成学习的主要思想和最常见的学习策略.并不带有太多的理论数学推导,在之后的下篇会增加进来.

前面就已经讲到了,集成学习的思想是,我们能够训练非常多个学习器,通过一定的结合策略,终于形成一个强的学习器.形象一点看下图.
机器学习笔记十三：Ensemble思想(上)
所以,你会非常自然的考虑:

我们通过如何的方式来得到n个学习器呢?
得到n个学习器之后,我们通过如何的策略来结合呢?

以下的内容就这两个疑惑来讲一下常见的训练多个学习器的方法和结合多个学习器的方法.

二.怎么得到多个学习器

这一部分举两个最常见的得到多个学习器的思路.一种是bagging,第二种是boosting.

Ⅰ.bagging

要理解bagging,首先知道bootstrap词汇的故事.这个词汇表示的是靴子上面的小环或者是悬挂物等等,通过这个小东西能够方便穿靴子.意思是不依靠外界的帮助,或者叫做自助法.
在这里表示一种有放回的抽样方法.所以以后看到bootstrap这个词不要不知道是什么意思.相同,你可能会经常看到一个词叫做bootstrap sampling.这个词的意思是自助採样,对于N个样本的训练集,我从里面随机取出m个样本,得到一个子训练集.然后把这些样本放回. 然后再取m个样本,得到第二个子训练集,再放回去………..重复这种步骤k次,得到k个子训练集.
Bagging能够看做是bootstrap aggregation的简写.
bagging得到多个学习器的方式为:

通过自助採样的方法得到K个训练集,然后分别在这K个训练集上面训练学习器.然后就得到了K个学习器.

非常easy的思想,形象一点例如以下图所看到的.
机器学习笔记十三：Ensemble思想(上)

须要注意的是,bagging对于弱学习器没有限制,也就是说,你能够用决策树,SVM等等都是能够的.一般经常使用的是决策树和神经网络.
由于baggin的随机採样思路,模型的泛化能力非常强,减少了模型的方差.可是对于训练集的拟合程度就不是那么好,也就是说偏差会大一些.
符合bagging思想的比較出名的学习算法就是随机森林了,在后面会具体来讲随机森林.这里先知道随机森铃的思想算是bagging即可.

Ⅱ.boosting

boosting的思想是:

训练集(当中各个元素)的权重是依据学习器的表现来改变的.

这个和bagging就有非常大的不同了.bagging採用自助採样的方式”产生”出多个训练集.可是boosting仅仅有一个训练集,可是训练集中各个元素(输入向量)的权重是不同的.

具体一点,boosting是先从具有初始权重的训练集训练出一个弱学习器1,然后依据弱学习器1的表现,来更新样本的权重. 然后再具有新的权重的训练集上面训练弱学习器2,然后依据弱学习器2的表现来更新样本的权重……..重复多次 ,得到m个学习器,最后整合这些弱学习器得到强学习器.
形象一点的话看下图.
机器学习笔记十三：Ensemble思想(上)
这里并不具体展开讲权重改变的具体细节,由于这篇的目的是高速理解思想,为后面的打基础.更具体的在后面的博客会具体给出.
Boosting框架以下比較出名好用的就是Adaboost算法和提升树了.后面都会讲到.

三.通过如何的策略结合学习器

这里仅仅能说要粗略的带过了,由于后面会从具体的实例里面体会怎么结合各种学习器.比在这里泛泛而谈要实用得多.
重点是要好好理解bagging和boosting的思想.

本站文章如无特殊说明，均为本站原创，如若转载，请注明出处：机器学习笔记十三：Ensemble思想(上) - Python技术站

人工智能机器学习

0 0 打赏

微信扫一扫

支付宝扫一扫

朴素贝叶斯算法的python实现 — 机器学习实战

上一篇 2023年4月15日

机器学习笔记：Learning Theory

下一篇 2023年4月15日

人类专家和专家系统的区别

人类专家和专家系统都是为解决特定问题而设计的，但两者有很大的区别。概念区别人类专家是指在某个领域中经验丰富、知识渊博且能够发挥超常判断力的人，他们基于自己的经验和知识为人们提供问题解决方案。而专家系统是使用计算机程序来模拟人类专家在特定领域中的知识和推理能力。知识来源人类专家获取知识的渠道主要是通过数年的实践经验积累，对相关领域的书籍、研究论文、历史…

artificial-intelligence 2023年3月27日
000
机器学习

吴恩达机器学习笔记50-主成分分析算法(PCA Algorithm)

PCA 减少????维到????维步骤：　　　　第一步是均值归一化。我们需要计算出所有特征的均值，然后令 ???????? = ???????? − ????????。如果特征是在不同的数量级上，我们还需要将其除以标准差 ????2。　　第二步是计算协方差矩阵（covariance matrix） (求和上面的n错了，应该是m）　　第三步是计算协方差矩…

2023年4月10日
000
循环神经网络

循环神经网络 Notes

1. 语言模型语言模型（language model）是自然语言处理的重要技术。自然语言处理中最常见的数据是文本数据。我们可以把一段自然语言文本看作一段离散的时间序列。假设一段长度为T的文本中的词依次为，那么在离散的时间序列中，可看作在时间步（time step）t 的输出或标签。给定一个长度为TT的词的序列，语言模型将计算该序列的概率： …

2023年4月8日
000
循环神经网络

PyTorch动态神经网络（六）——循环神经网络RNN

1、什么是循环神经网络RNN RNN是在有序的数据上进行学习的。对于含有关联关系的数据，普通的神经网络并不能很好的体现或者是发现利用数据之间的关联关系。于是也就有了循环神经网络，它很善于分析内部有关联关系的序列数据，在单独分析数据的同时，也不忘考虑数据间的关系。假如我们在分析Data0、Data1、Data2、Data3这些数据时，对于每个数据都经过相同…

2023年4月6日
000
卷积神经网络

【TensorFlow实战】TensorFlow实现经典卷积神经网络之ResNet

　　ResNet(Residual Neural Network)通过使用Residual Unit成功训练152层深的神经网络，在ILSVRC 2015比赛中获得冠军，取得3.57%的top-5错误率，同时参数量却比VGGNet低，效果突出。ResNet的结构可以极快地加速超深神经网络的训练，模型的准确率也有非常大的提升。ResNet是一个推广性非常好的…

2023年4月8日
000
学习Keras:《Keras快速上手基于Python的深度学习实战》PDF代码+mobi

有一定Python和TensorFlow基础的人看应该很容易，各领域的应用，但比较广泛，不深刻，讲硬件的部分可以作为入门人的参考。《Keras快速上手基于Python的深度学习实战》系统地讲解了深度学习的基本知识、建模过程和应用，并以深度学习在推荐系统、图像识别、自然语言处理、文字生成和时间序列中的具体应用为案例，详细介绍了从工具准备、数据获取和处理到针对…

Keras 2023年4月8日
000
目标检测

如何使用Soft-NMS实现目标检测并提升准确率

非极大值抑制(Non-Maximum suppression,NMS)是物体检测流程中重要的组成部分。它首先基于物体检测分数产生检测框，分数高的检测框M被选中，其他与被选中检测框又明显重叠的检测框被抑制。该过程不断递归的应用于其余检测框。根据算法设计，如果一个物体处于预设的重叠阈值之内，可能会导致检测不到该待检测物体。因此，我们提出了Soft-NMS算法，该…

2023年4月8日
000
数据挖掘和 OLAP 的区别

数据挖掘（Data Mining）和OLAP（Online Analytical Processing）都是处理大数据的方法，但它们之间存在显著的区别。数据挖掘和OLAP的定义数据挖掘：是一项分析大数据集的工程，目标是发现数据中潜在的模式、趋势、规律，以及从数据中获取价值信息的过程。 OLAP：是一种多维数据分析，提供了复杂的元素共性和维度分类、多维数据…

artificial-intelligence 2023年3月27日
000

机器学习笔记十三：Ensemble思想(上)

二.怎么得到多个学习器

Ⅰ.bagging

Ⅱ.boosting

三.通过如何的策略结合学习器

相关文章