机器学习-李航-统计学习方法学习笔记之感知机(1)

2023年4月13日上午1:37 • 机器学习

感知机应该是机器学习里面最简单的模型了。读一遍文章也能理解作者想表达的意思。因为以前像梯度下降，多项式拟合，神经网络都在Andrew Ng的公开课上看过了。但是真正关于书中的公式却不怎么理解。一些简单的作者也没有推导。毕竟这是机器学习，不是微积分，或者线性代数，或者概率论。微积分，概率论，线性代数是大学期间的基础课程。很多人应该都学过。

关于感知机的几何模型。

感知机有如下几何解释：线性方程：

　　　　　　　　　　　　w•x+b=0

对应于特征空间Rⁿ中的一个超平面S,其中w是超平面的法向量，b是超平面的截距。

机器学习-李航-统计学习方法学习笔记之感知机(1)

我们首先看一下法向量的定义

如果一个非零向量n与平面a垂直，则称向量n为平面a的法向量。

垂直于平面的直线所表示的向量为该平面的法向量。每一个平面存在无数个法向量。

因为我们知道超平面的几何方程还可以这样写：Ax+By+Cz=D;如下图

机器学习-李航-统计学习方法学习笔记之感知机(1)

上图来自于网易公开课，可汗学院线性代数公开课，点击进入

其中法向量n=Ai+Bj+Cz ;也就是法向量可以如下表示（A,B,Z）;

超平面几何方程：Ax+By+Cz=D;

和该处超平面的方程相对比，w•x+b=0 也就是w=n=(A,B,Z) ，其中-b为超平面的截距，也就是平面方程中的D;

感知机模型中的X也就是特征向量，也就是平面中的一系列点，也就是我们超平面几何方程中的(x,y,z);

到此我们就不能理解了。感知机几何模型w•x+b=0 既是超平面几何方程Ax+By+Cz=D;

感知机学习策略

既然了解了感知机的几何模型，接下来我们就看一下感知机的学习策略。

对于一个线性可分的数据集

机器学习-李航-统计学习方法学习笔记之感知机(1)

我们现在需要找到一个分离超平面，也就是确定w,b的参数，来将损失函数最小化，在这儿也就是求出所有的点到该几何平面的总距离，并使该总距离最短。从而将特征向量完全区分开来。

我们需要求任意一点到该超平面的距离，公式如下

机器学习-李航-统计学习方法学习笔记之感知机(1)

我们首先来看|w•x₀+b|的意义

我们先不管作者给出的公式。我们先看一下在线性代数里面是怎样求一个点到平面的距离的。

机器学习-李航-统计学习方法学习笔记之感知机(1)

机器学习-李航-统计学习方法学习笔记之感知机(1)

具体的公式推导请到网易公开课，线性代数课程观看，点击此处

从线性几何我们得出任意一点到平面的距离公式是

机器学习-李航-统计学习方法学习笔记之感知机(1)

其中Ax+By+Cz-D,也就是我们上面给的线性几何模型。相对于感知机也就是w•x+b

对于A²+B²+C²开平方也就是将对法向量w(A,B,C) 的一系列操作。作者在书中提到该值是法向量w的L₂范数。我们先看一下范数的概念。

机器学习-李航-统计学习方法学习笔记之感知机(1)

该定义来自线性代数

从上定义我们可以得知||w||即为对A²+B²+C²开平方。

至此我们就明了了作者书中公式的由来。

关于感知机模型的学习策略请看机器学习-李航-统计学习方法学习笔记之感知机(2)

本文地址：http://www.cnblogs.com/santian/p/4345218.html

博客地址：http://www.cnblogs.com/santian/

转载请以超链接形式标明文章原始出处。

本站文章如无特殊说明，均为本站原创，如若转载，请注明出处：机器学习-李航-统计学习方法学习笔记之感知机(1) - Python技术站

人工智能机器学习

赞 (0)

微信扫一扫

微信扫一扫

支付宝扫一扫

支付宝扫一扫

机器学习-统计学习方法中多项式拟合偏导函数推导

上一篇 2023年4月13日

机器学习-李航-统计学习方法学习笔记之感知机(2)

下一篇 2023年4月13日

pytorch transform 和 OpenCV及PIL转换

img_path = “./data/img_37.jpg” # transforms.ToTensor() transform1 = transforms.Compose([ transforms.ToTensor(), # range [0, 255] -> [0.0,1.0] ] ) ## openCV img = cv2.imread(img_…

PyTorch 2023年4月8日
000
循环神经网络

tensorflow实现循环神经网络

tensorflow实现循环神经网络包括卷积神经网络(CNN)在内的各种前馈神经网络模型, 其一次前馈过程的输出只与当前输入有关与历史输入无关. 递归神经网络(Recurrent Neural Network, RNN)充分挖掘了序列数据中的信息, 在时间序列和自然语言处理方面有着重要的应用. 递归神经网络可以展开为普通的前馈神经网络: 长短期记忆模型(L…

2023年4月6日
000
目标检测

Tensorflow Object_Detection 目标检测笔记

Code：https://github.com/tensorflow/models 编写时间：2017.7 记录在使用Object_Detection 中遇到的问题及解决方案 +++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++ Creating accura…

2023年4月8日
000
Caffe

【caffe 深度学习】7. win10 caffe gpu版本安装

1.准备好NVIDIA的显卡，下载安装CUDA 我这里是1060的显卡下载地址： https://developer.nvidia.com/cuda-downloads?target_os=Windows&target_arch=x86_64&target_version=10&target_type=exelocal 安装好之后…

2023年4月8日
000
循环神经网络

第十讲–循环神经网络–课时22–语言模型

language model即语言生成模型 character level language model 训练过程训练过程的输入时给定的，结果是一个向量，进过softmax后就是为各个character的概率测试过程输入是前一个的输出，输出是由soft max 之后的概率分布采样得到的 —————————-…

2023年4月8日
000
循环神经网络

循环神经网络（Recurrent Neural Networks）（第一部分）

循环神经网络（Recurrent Neural Networks）（第一部分）一、总结一句话总结： ①、RNN是一种可以预测未来（在某种程度上）的神经网络，可以用来分析时间序列数据（比如分析股价，预测买入点和卖出点）。 ②、在自动驾驶中，可以预测路线来避免事故。更一般的，它可以任意序列长度作为输入，而不是我们之前模型使用的固定序列长度。 ③、例如RNN可…

2023年4月6日
000
卷积神经网络

OpenCV在矩阵上的卷积

转载请注明出处！！！http://blog.csdn.net/zhonghuan1992 在openCV官网上说是戴面具，事实上就是又一次计算一下矩阵中的每个value，那么怎么计算呢，依据该像素点的周围信息，用一个加权的公式来进行计算。那么如今就要看，周围的信息是怎样被加权的。让我们想一下这种方式，请看以下的公式： …

2023年4月8日
000
caffe配置Makefile.config—-ubuntu16.04–重点是matlab的编译

来源： http://blog.csdn.net/daaikuaichuan/article/details/61414219 配置Makefile.config(参考：http://blog.csdn.net/autocyz/article/details/51783857 ) 折腾到这一步，离成功就不远了，接下来就是配置之前搁置的Ma…

Caffe 2023年4月8日
000

合作推广

合作推广

返回顶部