机器学习:梯度下降和delta法则

2023年4月9日下午11:51 • 机器学习

梯度下降

　　利用感知器法则的要求是必须训练样本是线性可分的，当样例不满足这条件时，就不能再收敛，为了克服这个要求，引出了delta法则，它会收敛到目标概念的最佳近似！

delta法则的关键思想是利用梯度下降（gradient descent）来搜索可能的权向量的假设空间，以找到最佳拟合训练样例的权向量。

　　简单的理解，就是训练一个无阈值的感知器，也就是一个线性单元。它的输出o如下：

　　　　　　　　机器学习:梯度下降和delta法则

先指定一个度量标准来衡量假设（权向量）相对于训练样例的训练误差（training error）。

　　　　　　机器学习:梯度下降和delta法则

其中D是训练样例集合，t_d是训练样例d的目标输出，o_d是线性单元对训练样例d的输出。E（w）是目标输出td和线性单元输出od的差异的平方在所有的训练样例上求和后的一半。我们定义E为w的函数，是因为线性单元的输出o依赖于这个权向量。

在这里，我们对于给定的训练数据使E最小化的假设也就是H中最可能的假设，也就是找到一组权向量能使E最小化。

直观感觉，E函数就是为了让目标输出t_d与线性输出o_d的差距也来越小，也就是越来越接近目标概念。

机器学习:梯度下降和delta法则

上图中，红点和绿点是线性不可分的（不能找到一条直线完全分开两类点），但是找到一条线能把两类点尽可能的分开。使错分的点尽可能地少。

为什么感知器不能分开呢？

就在于它是带阈值的，>0 为1，<0为-1。正是这种强制性，使函数输出带有跳跃性（不是可微的），用上图中的图像来表示就是，在训练过程中，线会一直顺时针或着逆时针旋转，而不会收敛到最佳值。

机器学习:梯度下降和delta法则

上图中，两个坐标轴表示一个简单的线性单元中两个权可能的取值，而圆圈大小代表训练误差E值的大小。

为了确定一个使E最小化的权向量，梯度下降搜索从一个任意的初始向量开始，然后以很小的步伐反复修改这个向量。每一步都沿误差曲线产生最陡峭的下降方向修改权向量（见蓝线），继续这个过程直到得到全局的最小误差点。

这个最陡峭的下降方向是什么呢？

可以通过计算E相对向量w的的每个分量的导数来得到这个方向。这个向量导数被称为E对于W的梯度（gradient），记作ΔE（w）.

机器学习:梯度下降和delta法则

ΔE（w）本身是一个向量，它的成员是E对每个w_i的偏导数。当梯度被解释为权空间的一个向量时，它确定了使E最陡峭上升的方向。

既然确定了方向，那梯度下降法则就是：

机器学习:梯度下降和delta法则

其中：

机器学习:梯度下降和delta法则

这里的η是一个正的常数叫做学习速率，它决定梯度下降搜索中的步长。公式中的符号是想让权向量E下降的方向移动。

这个训练法则也可以写成它的分量形式：

机器学习:梯度下降和delta法则

其中：

机器学习:梯度下降和delta法则（公式1）

最陡峭的下降可以按照比例改变中的每一分量机器学习:梯度下降和delta法则来实现。

可以通过前面的训练误差公式中计算E的微分，从而得到组成这个梯度向量的分量机器学习:梯度下降和delta法则。

推导过程略去。

最后得到：

机器学习:梯度下降和delta法则

其中x_id表示训练样例d的一个输入分量xi。现在我们有了一个公式，能够用线性单元的输入x_id，输出o_d以及训练样例的目标值t_d表示机器学习:梯度下降和delta法则。

把次此公式带入公式（1）得到了梯度下降权值更新法则。

机器学习:梯度下降和delta法则（公式2）

因此，训练线性单元的梯度下降算法如下：选取一个初始的随机权向量；应用线性单元到所有的训练样例，然后根据公式2计算每个权值的Δw_i;通过加上Δw_i来更新每个权值，然后重复这个过程。

因为这个误差曲面仅包含一个全局的最小值，所以无论训练样例是否线性可分，这个算法都会收敛到具有最小误差的权向量。条件是必须使用一个足够小的学习速率η。

如果η太大，梯度下降搜素就有越过误差面最小值而不是停留在那一点的危险。因此常有的改进方法是随着梯度下降步数的增加逐渐减小η的值。

梯度下降算法的伪代码：

机器学习:梯度下降和delta法则

要实现梯度下降的随机近似，删除（T4.2）,并把（T4.1）替换为。

随机梯度下降算法

梯度下降是一种重要的通用学习范型。它是搜索庞大假设空间或无限假设空间的一种策略，它可以满足以下条件的任何情况：

（1）假设空间包含连续参数化的假设。

（2）误差对于这些假设参数可微。

在应用梯度下降的主要实践问题是：

（1）有时收敛过程可能非常慢；

（2）如果在误差曲面上有多个局部极小值，那么不能保证这个过程会找到全局最小值。

缓解这些困难的一个常见的梯度下降变体被称为增量梯度下降算法（incremental gradient descent）或者随机梯度下降（stochastic gradient descent）。

鉴于公式2给出的梯度下降训练法则在对D中的所有训练样例求和后计算权值更新，随机梯度下降的思想是根据每个单独样例的误差增量计算权值更新，得到近似的梯度下降搜索.

修改后的训练法则与公式2相似，只是在迭代计算每个训练样例时根据下面的公式来更新权值：

机器学习:梯度下降和delta法则公式3

其中，t、o和x_i分别是目标值、单元输出和第i个训练样例的输入。

随机梯度下降可被看作为每个单独的训练样例d定义不同的误差函数机器学习:梯度下降和delta法则 :

机器学习:梯度下降和delta法则

其中，td和od是训练样例d的目标输出值和单元输出值。

随机梯度下降迭代计算训练样例集D的每个样例d,在每次迭代过程中按照关于的梯度来改变权值。在迭代所有训练样例时，这些权值更新的序列给出了对于原来的误差函数机器学习:梯度下降和delta法则的梯度下降的一个合理近似。

标准的梯度下降和随机的梯度下降之间的关键区别：

（1）标准的梯度下降是在权值更新前对所有的样例汇总误差，而随机梯度下降的权值是通过考查每个训练样例来更新的。

（2）在标准的梯度下降中，权值更新的每一步对多个样例求和，这需要大量的计算。

（3）如果有多个局部极小值，随机的梯度下降有时可能避免陷入这些局部极小值中，因为它使用不同的而不是机器学习:梯度下降和delta法则来引导搜索。

注意：

　　公式3的增量法则与之前感知器法则训练法则相似。但是它们是不同的，在增量法则中o是值线性单元的输出，而对于感知器法则，o是指阈值输出，在公式机器学习:梯度下降和delta法则中。

样例：

　　输入x1、x2，输出为o，训练w0,w1,w2

　　满足 w1+x1*w1+x2*x2=o

训练样例为：

头文件

#ifndef HEAD_H_INCLUDED
#define HEAD_H_INCLUDED
#include <iostream>
#include <fstream>
#include <vector>
#include <cstdio>
#include <cstdlib>
#include <cmath>

using namespace std;

const int DataRow=4;
const int DataColumn=3;
const double learning_rate=.01;
extern double DataTable[DataRow][DataColumn];
extern double Theta[DataColumn-1];
const double loss_theta=0.001;
const int iterator_n =100;


#endif // HEAD_H_INCLUDED

源代码

#include "head.h"
double DataTable[DataRow][DataColumn];
double Theta[DataColumn-1];
void Init()    
{
    ifstream fin("data.txt");
    for(int i=0;i<DataRow;i++)
    {
        for(int j=0;j<DataColumn;j++)
        {
            fin>>DataTable[i][j];
        }
    }
    if(!fin)
    {
        cout<<"fin error";
        exit(1);
    }
    fin.close();
    for(int i=0;i<DataColumn-1;i++)
    {
        Theta[i]=0.5;
    }
}
void batch_grandient()          //标准梯度下降
{
    double loss=1000;
    for(int i=0;i<iterator_n&&loss>=loss_theta;i++)
    {
        double Thetasum[DataColumn-1]={0};
        for(int j=0;j<DataRow;j++)
        {
            double error=0;
            for(int k=0;k<DataColumn-1;k++)
            {
                error+=DataTable[j][k]*Theta[k];
            }
            error=DataTable[j][DataColumn-1]-error;
            for(int k=0;k<DataColumn-1;k++)
            {
                Thetasum[k]+=learning_rate*error*DataTable[j][k];
            }
        }
        double a=0;
        for(int k=0;k<DataColumn-1;k++)
            {
                Theta[k]+=Thetasum[k];
                a+=abs(Thetasum[k]);
            }
        loss=a/(DataColumn-1);
    }
}
void stochastic_gradient()      //随即梯度下降
{
    double loss=1000;
    for(int i=0;i<iterator_n&&loss>=loss_theta;i++)
    {
        double Thetasum[DataColumn-1]={0};
        for(int j=0;j<DataRow;j++)
        {
            double error=0;
            for(int k=0;k<DataColumn-1;k++)
            {
                error+=DataTable[j][k]*Theta[k];
            }
            error=DataTable[j][DataColumn-1]-error;
            double a=0;
            for(int k=0;k<DataColumn-1;k++)
            {
                Theta[k]+=learning_rate*error*DataTable[j][k];
                a+=abs(learning_rate*error*DataTable[j][k]);
            }
            loss=a/(DataColumn-1);
            if(loss<=loss_theta)
                break;
        }
    }
}
void printTheta()
{
    for(int i=0;i<DataColumn-1;i++)
        cout<<Theta[i]<<" ";
    cout<<endl;
}

int main()
{
    Init();
    //batch_grandient();
    stochastic_gradient();
    printTheta();
    return 0;
}

本站文章如无特殊说明，均为本站原创，如若转载，请注明出处：机器学习:梯度下降和delta法则 - Python技术站

机器学习

0 0 打赏

微信扫一扫

支付宝扫一扫

机器学习:感知器（perceptron）

上一篇 2023年4月9日下午11:50

【机器学习与R语言】3-概率学习朴素贝叶斯（NB）

下一篇 2023年4月9日下午11:51

机器学习

Coursera机器学习week4 笔记

Non-linear hypotheses 我们之前学到的，无论是线性回归还是逻辑回归都有一个缺点，当特征太多时，计算负荷会非常的大。如下：只有x1和x2，但运用多次项进行预测时，我们的方程可以很好的预测。使用非线性的多项式能够帮助我们建立更好的分类模型。例如我们有很多的特征，100个变量，用这100个特征构建一个非线性的多项式模型，结果将是非常大的特…

2023年4月9日
000
机器学习服务文本识别能力演进，大幅提升识别准确率

文本识别技术（OCR）可以识别收据、名片、文档照片等含文字的图片，将其中的文本信息提取出来，代替了人工信息录入与检测等操作，降低了输入成本，快速、方便，提升产品的易用性。随着技术的发展，OCR已经深入生活的诸多方面。交通场景下，主要用于车牌识别，便于停车场管理、智能交通、移动警务等；生活场景下，主要用于证照识别，便于提取身份证、银行卡、护照、结婚证、户口本…

机器学习 2023年4月11日
000
机器学习的数学基础-（三、概率论和数理统计）

概率论和数理统计随机事件和概率 1.事件的关系与运算 (1) 子事件：，若发生，则发生。 (2) 相等事件：，即，且。 (3) 和事件：（或），与中至少有一个发生。 (4) 差事件：，发生但不发生。 (5) 积事件：（或），与同时发生。 (6) 互斥事件（互不相容）：。 (7) 互逆事…

机器学习 2023年4月13日
000
实例详解机器学习如何解决问题

原文出处：http://tech.meituan.com/mt-mlinaction-how-to-ml.html 前言随着大数据时代的到来，机器学习成为解决问题的一种重要且关键的工具。不管是工业界还是学术界，机器学习都是一个炙手可热的方向，但是学术界和工业界对机器学习的研究各有侧重，学术界侧重于对机器学习理论的研究，工业界侧重于如何用机器学习来解…

机器学习 2023年4月12日
000
《机器学习》（西瓜书）笔记（3）–线性模型

第三章线性模型 3.1 基本形式线性模型（linear model）试图学得一个通过属性的线性组合来进行预测的函数，即一般用向量形式写成，其中 w 和 b 学得之后，模型就得以确定。 3.2 线性回归对离散属性的处理：若属性值间存在序关系，可通过连续化将其转化为连续值，例如二值属性“身高”的取值“高”“矮”可转化为 {1.0,…

机器学习 2023年4月11日
000
机器学习

【模式识别与机器学习】——4.3离散K-L变换

　　全称：Karhunen-Loeve变换（卡洛南-洛伊变换）前面讨论的特征选择是在一定准则下，从n个特征中选出k个来反映原有模式。这种简单删掉某n-k个特征的做法并不十分理想，因为一般来说，原来的n个数据各自在不同程度上反映了识别对象的某些特征，简单地删去某些特征可能会丢失较多的有用信息。如果将原来的特征做正交变换，获得的每个数据都是原来n个数据…

2023年4月10日
000
机器学习|k-近邻(KNN)算法改进约会网站的配对效果

使用Python实现k-近邻算法的一般流程为： 1、收集数据：提供文本文件 2、准备数据：使用Python解析文本文件，预处理 3、分析数据：可视化处理 4、训练算法：此步骤不适用与k——近邻算法 5、测试算法：使用海伦提供的部分数据作为测试样本。测试样本与非测试样本的区别在于：测试样本是已经完成分类的数据，如果预测分类与实际类别不一样，则标记为一个错误。 …

机器学习 2023年4月11日
000
《机器学习笔记》-环境配置

心好累，从最开始的32位Python2.7，做MovieLens1M试验就直接内存报错了，后来换成了64位Python2.7，最近做文本读取试验又遇到编码问题，另一台电脑的64位Python却没问题，这里索性把自己的主要Python开发环境换成64为Python3.5，那就记录下来吧，以后还是用最新版的软件比较好。操作系统：64位 Windows 10 专…

机器学习 2023年4月12日
000

机器学习:梯度下降和delta法则

梯度下降

随机梯度下降算法

相关文章