《机器学习技法》—AdaBoost算法

2023年4月12日下午10:20 • 机器学习

yizhihongxing

首先，直接给出AdaBoost算法的核心思想是：在原数据集上经过取样，来生成不同的弱分类器，最终再把这些弱分类器聚合起来。

关键问题有如下几个：

（1）取样怎样用数学方式表达出来；

（2）每次取样依据什么准则；

（3）最后怎么聚合这些弱分类器。

首先我们看第一个问题，如何表示取样？答案使用原数据集上的加权error。

假设我们对数据集D做的取样如下：

《机器学习技法》---AdaBoost算法

那么我们在新数据集上的01error可以等效为在原数据集上的加权error：

即我们取样相当于确定一组权重μ，对这个加权的error作最小化就能得到一个弱分类器g。

特别的，对于svm和逻辑回归，如果我们已知权重μ，我们可以用下面的方式解：

《机器学习技法》---AdaBoost算法

然后是第二个问题，依据什么原则来取样？或者说，怎样选择权重μ。

答案是多样性。即保证生成的每个弱分类器的差别越大，最后的聚合出来的强分类器就会越好。

如何来保证这一点呢？假设我的第t次取样生成了gt，第t+1次取样生成了g(t+1)，取样的规则分别是μt和μt+1。即：

《机器学习技法》---AdaBoost算法

那么，要保证gt+1和gt有很大不同，有一个办法，就是使gt用在gt+1的数据集上时，效果很差。效果很差就是错误率是0.5，跟扔硬币一样：

《机器学习技法》---AdaBoost算法

即：

《机器学习技法》---AdaBoost算法

所以，更新这个权重的方法是，对于t轮上分类错误的点，它的u应该更新为乘以总的分类正确率，对于分类正确的点，它的u应该更新为乘以总的分类错误率，注意这里的分类错误率是加权后的分类错误率（或者说在采样后的分类错误率）：

《机器学习技法》---AdaBoost算法

这里我们使用另一种与上面等效的方法：

《机器学习技法》---AdaBoost算法

它有一定的物理意义：由于上一轮错误率总是小于0.5，因此方块t是大于1的。因此对于上一次分类正确的权重，除以方块t，减小了权重；对于上一次分类错误的权重，乘以方块t，放大了权重。

类似于水果课堂中老师教学生的例子。

第三个问题，得到了这些弱分类器，如何把他们聚合起来？AdaBoost使用的是Linear Blending的方式，其中的权重应该与方块t成正比，即这个弱分类器表现越好，权重应该越大：

《机器学习技法》---AdaBoost算法

另外，初始的u我们定为均匀的。

这样，AdaBoost算法如下：

《机器学习技法》---AdaBoost算法

2 AdaBoost的理论保证

《机器学习技法》---AdaBoost算法

本站文章如无特殊说明，均为本站原创，如若转载，请注明出处：《机器学习技法》—AdaBoost算法 - Python技术站

人工智能机器学习

赞 (0)

微信扫一扫

微信扫一扫

支付宝扫一扫

支付宝扫一扫

《机器学习技法》—决策树

上一篇 2023年4月12日

《机器学习技法》—核型逻辑回归

下一篇 2023年4月12日

解决 conda tensorflow failed to create cublas handle: CUBLAS_STATUS_NOT_INITIALIZED

参考解决方案1：https://stackoverflow.com/questions/38303974/tensorflow-running-error-with-cublas 参考解决方案2：https://github.com/tensorflow/tensorflow/issues/9489 本人环境： Hassee G7-CT7NK Ubunt…

tensorflow 2023年4月8日
000
Caffe

使用vs2015编译、部署ssd-caffe(weiliu89版，CPU模式)

前因项目所需，须训练一个快速模型以实现目标物体的实时检测。历经多次实践，发现MobileNetSSD网络符合要求，故在本人工作PC上部署weiliu89版本的ssd-caffe以期用之训练项目要求之模型。当时思之甚简，网络上相关文章多矣，此事应不成问题。然一番搜索后才发现，前人多在linux下进行，针对windows者寥寥，仅有几篇亦是使用的支持…

2023年4月6日
000
tensorflow

对鸢尾花识别之tensorflow

任务目标对鸢尾花数据集分析建立鸢尾花的模型利用模型预测鸢尾花的类别环境搭建 pycharm编辑器搭建python3.*第三方库 tensorflow1.* numpy pandas sklearn keras 处理鸢尾花数据集了解数据集鸢尾花数据集是一个经典的机器学习数据集，非常适合用来入门。鸢尾花数据集链接：下载鸢尾花数据集鸢尾花数据集包含四个…

2023年4月6日
000
纳米技术和人工智能的区别

纳米技术和人工智能的区别纳米技术（Nanotechnology）纳米技术是一种通过在原子和分子的级别上设计、操纵和应用物质的科学、工程和技术。它包括制造、设计和研究尺寸为纳米级的材料和器件，以及这些材料和器件的应用。纳米技术被广泛运用于各个领域，包括医疗、能源、电子、纺织品、环保等。实例：近年来，一些医疗领域使用了纳米技术研制新型的治疗方法。例如，针对…

artificial-intelligence 2023年3月27日
000
pytorch resnet实现

官方github上已经有了pytorch基础模型的实现，链接但是其中一些模型，尤其是resnet，都是用函数生成的各个层，自己看起来是真的难受！所以自己按照caffe的样子，写一个pytorch的resnet18模型，当然和1000分类模型不同，模型做了一些修改，输入48*48的3通道图片，输出7类。 import torch.nn as nn im…

PyTorch 2023年4月6日
000
目标检测

目标检测数据集分析

目录目标检测数据集分析图片数量、标注框数量、类别信息所有图片宽度和高度的散点图所有标注框宽度和高度的散点图标注框宽度和高度之比每一类的标注框数量每一类图片数量每一张图片上的标注框数量不同尺寸的图片数量每一类标注框的宽度高度散点图使用方法 Install Usage Example 目标检测数据集分析平时我们经常需要对我们的数据集进行各…

2023年4月6日
000
卷积神经网络

直接卷积理解

最近项目上需要实现直接卷积，就看相关的教程中实现的都是信号和电子领域的卷积，结果和计算机领域的不一致，原因大家可以自己搜一下，计算机图像领域的卷积其实不是真正的卷积。其算法示意如下图所示：相关代码参考于他人代码，但是目前找不到了，欢迎作者联系我补充。代码有所修改。输入：imput[IC][IH][IW] IC = input.channels IH =…

2023年4月6日
000
Caffe

Ubuntu16.04 caffe安装记录

1.安装显卡驱动首先更新输入： sudo apt-get update sudo apt-get upgrade 然后打开System Settings中Software&Updates 如下选择，并点击Apply Changes。 2.禁用nouveau 编辑文件 sudo gedit /etc/modprobe.d/blacklist-n…

2023年4月6日
000

合作推广

合作推广

返回顶部