机器学习-李航-统计学习方法学习笔记之感知机(2)

2023年4月13日上午1:37 • 机器学习

在机器学习-李航-统计学习方法学习笔记之感知机(1)中我们已经知道感知机的建模和其几何意义。相关推导也做了明确的推导。有了数学建模。我们要对模型进行计算。

感知机学习的目的是求的是一个能将正实例和负实例完全分开的分离超平面。也就是去求感知机模型中的参数w和b.学习策略也就是求解途径就是定义个经验损失函数，并将损失函数极小化。我们这儿采用的学习策略是求所有误分类点到超平面S的总距离。假设超平面s的误分类点集合为M,那么所有误分类点到超平面S的总距离为机器学习-李航-统计学习方法学习笔记之感知机(2)

显然损失函数L(w,b)是非负的，如果没有误分类点，那么损失函数的值就是0，因为损失函数的定义就是求误分类点到平面的距离，误分类点都没有，那么损失函数的值肯定是0. 机器学习-李航-统计学习方法学习笔记之感知机(2)

感知机学习算法是误分类驱动，采用随机梯度下降法。首先，任意选取一个超平面w,b,然后极小化目标函数。相关定义在作者的书中都有给出。不在啰嗦了。

感知机学习算法的原始形式

对例子2.1做详细推导。作者其实已经给出了推导。对于很多基础知识扎实的人来说已经足够了。但对于一些大学期间高数忘了差不多的我们来说，理通作者思路也要仔细手写推导一下。

机器学习-李航-统计学习方法学习笔记之感知机(2)

解构建最优化问题：机器学习-李航-统计学习方法学习笔记之感知机(2) ，按照算法2.1求解w,b,学习η=1

取初值w₀=(0,0)^T(这里w₀是初始的法向量，如果是三维空间应该是(0,0,0)^T,这儿二维平面就够用了w₀=(0,0)^T。所以,w₀=(0,0)^T)

b₀=0.

对x₁=(3,3)^T,因为是正分类点,所以y₁=1带入分离超平面公式

y₁(w₀•x₁+b₀)

　　　　　　　　　　　　　　　=　 1((0,0)^T•(3,3)^T+0) --------公式1.0

其中T代表矩阵的转置，也就是把(0,0)竖过来。同时这儿的(0,0)^T和(3,3)^T也是向量的表示。中间的圆点代表求两个向量的内积。我们看一下向量内积的定义

机器学习-李航-统计学习方法学习笔记之感知机(2)

在线性代数中有对此的明确定义。所以(0,0)^T和(3,3)^T的内积就为0*3+0*3=0.

所以公式1.0的值为0.因为要把所有的正实例和负实例分开，这儿该正实例在分离超平面上，显然不符合要求。所以我们要更新w,b.

w₁=w₀+y₁x₁ 这儿更新w法向量的意义是移动分离超平面的方向，对于二维空间就是更改直线的斜率，更新b就是移动斜线的截距。

我们首先把这儿几个实例点表示出来x₁y₁=((3,3)^T,1 ) x₂y₂=((4,3)^T,1 ) x₃y₃=((1,1)^T,-1 )

求得w₁=(0,0)^T+(3,3)^T=(3,3)^T　b₁=b₀+y₁=1

所以线性模型为机器学习-李航-统计学习方法学习笔记之感知机(2)

因为我们使用函数间隔来衡量是否被正确分类的，也就是在线性模型前面加上参数y_i 因为正确分类时候y_i=1，误分类的时候y_i=-1,所以可以两者的乘积只要大于0就可以表示正确分类了，不需要更新函数参数。小于等于0就表示要更新参数。

新的线性模型对于点x₁y₁=((3,3)^T,1 ) x₂y₂=((4,3)^T,1 )显然都大于0，也就是可以被正确分类。对于 x₃y₃=((1,1)^T,-1 ),带入后机器学习-李航-统计学习方法学习笔记之感知机(2) 函数间隔小于0代表函数未被正确分类。所以需要更新函数。

w₂=w₁+y₁x₁ 机器学习-李航-统计学习方法学习笔记之感知机(2)

机器学习-李航-统计学习方法学习笔记之感知机(2)

对于感知机求解的一般形式，很简单，仔细看书，了解几个数学概念就很容易明白。不在赘述。

感知机学习算法的收敛性

大体浏览了下，感觉不是很重要，也不是很难理解，可能是我没自己手动推导一下的原因。想研究的可以直接看作者的推导。

感知机学习算法的对偶形式

下面是作者书中给出的例子，但是没有具体的推导过程。

机器学习-李航-统计学习方法学习笔记之感知机(2)

我们推导如下。从原始形式中我们可以知道。w的更新过程。

第一次更新是x₁y₁=((3,3)^T,1 ) _{点不能是函数模型大于零,所以 w₁=w₀+x₁y₁}

第二次更新是x₃y₃=((1,1)^T,-1 )点不能使其大于零，所以 w₂=w₁+x₃y₃

第三次更新是x₃y₃=((1,1)^T,-1 )点不能使其大于零，所以 w₃=w₂+x₃y₃

第四次更新是x₃y₃=((1,1)^T,-1 )点不能使其大于零，所以 w₄=w₃+x₃y₃

第五次更新是x₁y₁=((3,3)^T,1 )点不能使其大于零，所以 w₅=w₄+x₁y₁

第六次更新是x₃y₃=((1,1)^T,-1 )点不能使其大于零，所以 w₆=w₅+x₃y₃

第七次更新是x₃y₃=((1,1)^T,-1 )点不能使其大于零，所以 w₇=w₆+x₃y₃

然后我们得到机器学习-李航-统计学习方法学习笔记之感知机(2)

从上面可以总结出w₇=w₆+x₃y₃

w₇=w₅+x₃y₃ +x₃y₃

　　　　　　　　w₇=w₄+x₁y₁+x₃y₃ +x₃y₃

　　　　　　　　w₇=w₃+x₃y₃+x₁y₁+x₃y₃ +x₃y₃

　　　　　　　　w₇=w₂+x₃y₃+x₃y₃+x₁y₁+x₃y₃ +x₃y₃

　　　　　　　　w₇=w₁+x₃y₃ +x₃y₃+x₃y₃+x₁y₁+x₃y₃ +x₃y₃

　　　　　　　　w₇=w₀+x₁y₁ +x₃y₃ +x₃y₃+x₃y₃+x₁y₁+x₃y₃ +x₃y₃

所以我们可以得出最终w₇的值为两次x₁y₁ +五次x₃y₃

也就等于在对偶形式中的机器学习-李航-统计学习方法学习笔记之感知机(2)

同理也可以得出b,例2.2中的误分条件我们还可以写成如下形式。

机器学习-李航-统计学习方法学习笔记之感知机(2)

从上面的公式中对比作者给出的求解迭代过程。我们应该可以很容易理解对偶形式的感知机算法，推导后发现只是换了一个简便的计算形式。至此关于统计学习方法中的感知机篇章结束。

可参考机器学习-李航-统计学习方法学习笔记之感知机(1)

本文地址：http://www.cnblogs.com/santian/p/4351756.html

博客地址：http://www.cnblogs.com/santian/

转载请以超链接形式标明文章原始出处。

本站文章如无特殊说明，均为本站原创，如若转载，请注明出处：机器学习-李航-统计学习方法学习笔记之感知机(2) - Python技术站

人工智能机器学习

0 0 打赏

微信扫一扫

支付宝扫一扫

机器学习-李航-统计学习方法学习笔记之感知机(1)

上一篇 2023年4月13日

机器学习中Bagging和Boosting的区别

下一篇 2023年4月13日

机器学习笔记：Learning Theory

　　截止目前，已经知道了常用的机器学习算法是怎么回事儿、学习的步骤是怎么进行的。但在机器学习的应用背景是多种多样的，做实际工程必须学会如何根据具体的问题评估一个学习模型的好坏，如何合理地选择模型、提取特征，如何进行参数调优。这些也是我以前做模式识别时欠缺的环节，所以在遇到识别率很低的情况时，往往很困惑，不知道该如何改进：到底是应该改进模型改变特征、还是应该增…

机器学习 2023年4月15日
000
【学习篇】机器学习之模型评价

注：以下内容为本人学习心得，可能会存在不准确，有误导大家的可能。请酌情参考，感谢！对于一个回归问题，可以使用MSE、RMSE、MAE、R方对于一个分类问题，可以使用分类精准度（实际上，分类精准度是存在陷阱的）分类准确度够用么？不够若某事件产生概率为 0.1%，若某算法判断某事情是否产生的准确度为99.9% 时，与人工判定所有情况下都没…

机器学习 2023年4月12日
000
卷积神经网络

卷积神经网络（3）—-经典网络 – 吱吱了了

卷积神经网络（3）—-经典网络卷积层要提升表达能力，主要依靠增加输出通道数，副作用是计算量增大和过拟合。一、历史过程：二、经典网络 1、LeNet：两层卷积+池化，两层全连接 2、AlexNet：5个卷积层、5个池化层、3个全连接层【大约5000万个参数】，最后一个全连接层输出到一个1000维的softmax层，产生一个1000类的分类。优点…

2023年4月8日
000
循环神经网络

循环神经网络(Recurrent Neural Networks, RNN)介绍

目录1 什么是RNNs2 RNNs能干什么　　2.1 语言模型与文本生成Language Modeling and Generating Text　　2.2 机器翻译Machine Translation　　2.3 语音识别Speech Recognition　　2.4 图像描述生成 Generating Image Descriptions3 如何训练RN…

2023年4月6日
000
目标检测

基于MATLAB静态目标分割的药板胶囊检测

一、目标 1 将药板从黑色背景中分离（药板部分显示为白色，背景显示为黑色）； 2 根据分割结果将药板旋转至水平； 3 提取药板中的药丸的位置信息；二、方法描述处理图像如下：（1）首先将图像转为灰度图像，并做二值化处理，并采用闭运算将胶囊边缘平滑处理。得到图像如下所示：（2）利用imf…

2023年4月5日
000
源码阅读经验谈-slim,darknet,labelimg,caffe(1)

本文首先谈自己的源码阅读体验，然后给几个案例解读，选的例子都是比较简单。重在说明我琢磨的点线面源码阅读方法。我不是专业架构师，是从一个深度学习算法工程师的角度来谈的，不专业的地方请大家轻拍。经常看别人写的代码，然后改别人的代码，然后实现自己的想法，我想这是我们coder常干的事情。看人看代码，代码如人。他代码写的有多清爽简洁，说明他思维是清晰的；代码的…

Caffe 2023年4月7日
000
Keras

深度学习中的Data Augmentation方法（转）基于keras

在深度学习中，当数据量不够大时候，常常采用下面4中方法： 1. 人工增加训练集的大小. 通过平移, 翻转, 加噪声等方法从已有数据中创造出一批”新”的数据.也就是Data Augmentation 2. Regularization. 数据量比较小会导致模型过拟合, 使得训练误差很小而测试误差特别大. 通过在Loss Function 后面加上正则项可以抑制…

2023年4月6日
000
Caffe

Caffe初试（一）win7_64bit+VS2013+Opencv2.4.10+CUDA6.5配置Caffe环境

折腾了几天，终于在windows系统上成功配置了Caffe环境，期间遇到了很多问题，每个问题的解决也都花了不少时间，查过挺多资料，感觉挺有意义，这里写篇博客记录一下。原来我使用的CUDA版本是7.5，参照win7环境下CUDA7.5的安装、配置与测试（VS2010）辛辛苦苦编译生成了caffe.exe，愣高兴了一晚，结果当我用caffe对手写字体库m…

2023年4月8日
000

机器学习-李航-统计学习方法学习笔记之感知机(2)

感知机学习算法的原始形式

感知机学习算法的收敛性

感知机学习算法的对偶形式

相关文章