keras各种优化方法总结 SGDmomentumnesterov

2023年4月7日下午11:28 • Keras

http://blog.csdn.net/luo123n/article/details/48239963

前言

这里讨论的优化问题指的是，给定目标函数f(x)，我们需要找到一组参数x，使得f(x)的值最小。

本文以下内容假设读者已经了解机器学习基本知识，和梯度下降的原理。

SGD

SGD指stochastic gradient descent，即随机梯度下降。是梯度下降的batch版本。

对于训练数据集，我们首先将其分成n个batch，每个batch包含m个样本。我们每次更新都利用一个batch的数据，而非整个训练集。即：

t

t

其中，为x在t时刻的梯度。

这么做的好处在于：

当训练数据太多时，利用整个数据集更新往往时间上不显示。batch的方法可以减少机器的压力，并且可以更快地收敛。
当训练集有很多冗余时（类似的样本出现多次），batch方法收敛更快。以一个极端情况为例，若训练集前一半和后一半梯度相同。那么如果前一半作为一个batch，后一半作为另一个batch，那么在一次遍历训练集时，batch的方法向最优解前进两个step，而整体的方法只前进一个step。

Momentum

SGD方法的一个缺点是，其更新方向完全依赖于当前的batch，因而其更新十分不稳定。解决这一问题的一个简单的做法便是引入momentum。

momentum即动量，它模拟的是物体运动时的惯性，即更新的时候在一定程度上保留之前更新的方向，同时利用当前batch的梯度微调最终的更新方向。这样一来，可以在一定程度上增加稳定性，从而学习地更快，并且还有一定摆脱局部最优的能力：

t

Nesterov Momentum

这是对传统momentum方法的一项改进，由Ilya Sutskever(2012 unpublished)在Nesterov工作的启发下提出的。

其基本思路如下图（转自Hinton的coursera公开课lecture 6a）：

keras各种优化方法总结 SGDmomentumnesterov

首先，按照原来的更新方向更新一步（棕色线），然后在该位置计算梯度值（红色线），然后用这个梯度值修正最终的更新方向（绿色线）。上图中描述了两步的更新示意图，其中蓝色线是标准momentum更新路径。

公式描述为：

)

Adagrad

上面提到的方法对于所有参数都使用了同一个更新速率。但是同一个更新速率不一定适合所有参数。比如有的参数可能已经到了仅需要微调的阶段，但又有些参数由于对应样本少等原因，还需要较大幅度的调动。

Adagrad就是针对这一问题提出的，自适应地为各个参数分配不同学习率的算法。其公式如下：

t

其中是一个比较小的数，用来保证分母非0。

其含义是，对于每个参数，随着其更新的总距离增多，其学习速率也随之变慢。

Adadelta

Adagrad算法存在三个问题

其学习率是单调递减的，训练后期学习率非常小
其需要手工设置一个全局的初始学习率
更新时，左右两边的单位不同一

Adadelta针对上述三个问题提出了比较漂亮的解决方案。

首先，针对第一个问题，我们可以只使用adagrad的分母中的累计项离当前时间点比较近的项，如下式：

t

t

针对第三个问题，其实sgd跟momentum系列的方法也有单位不统一的问题。sgd、momentum系列方法中：

位

而对于牛顿迭代法：

t

位

所以，我们可以模拟牛顿迭代法来得到正确的单位。注意到：

x

t

可以看到，如此一来adagrad中分子部分需要人工设置的初始学习率也消失了，从而顺带解决了上述的第二个问题。

各个方法的比较

Karpathy做了一个这几个方法在MNIST上性能的比较，其结论是：
adagrad相比于sgd和momentum更加稳定，即不需要怎么调参。而精调的sgd和momentum系列方法无论是收敛速度还是precision都比adagrad要好一些。在精调参数下，一般Nesterov优于momentum优于sgd。而adagrad一方面不用怎么调参，另一方面其性能稳定优于其他方法。

实验结果图如下：

Loss vs. Number of examples seen
keras各种优化方法总结 SGDmomentumnesterov

Testing Accuracy vs. Number of examples seen
keras各种优化方法总结 SGDmomentumnesterov

Training Accuracy vs. Number of examples seen keras各种优化方法总结 SGDmomentumnesterov

最近看到了一个很棒的总结文章，除了本文的几个算法，还总结了RMSProp跟ADAM（其中ADAM是目前最好的优化算法，不知道用什么的话用它就对了）

本站文章如无特殊说明，均为本站原创，如若转载，请注明出处：keras各种优化方法总结 SGDmomentumnesterov - Python技术站

Keras 人工智能

赞 (0)

微信扫一扫

微信扫一扫

支付宝扫一扫

支付宝扫一扫

上一篇 2023年4月7日

conda+豆瓣源配置tensorflow+keras环境

下一篇 2023年4月7日

Caffe

【caffe Blob】caffe中与Blob相关的代码注释、使用举例

首先，Blob使用的小例子（通过运行结果即可知道相关功能）： #include <vector> #include <caffe/blob.hpp> #include <caffe/util/io.hpp>//磁盘读写 #include <iostream> using namespace std; using…

2023年4月8日
000
卷积神经网络

全卷积网络FCN详解

http://www.cnblogs.com/gujianhan/p/6030639.html CNN能够对图片进行分类，可是怎么样才能识别图片中特定部分的物体？（图像语义分割） FCN（Fully Convolutional Networks）对图像进行像素级的分类，从而解决了语义级别的图像分割（semantic segmentation）问题。与经典的…

2023年4月8日
000
目标检测

【深度学习】yolo2目标检测 object detection从原理到实践

yolo2目标检测 object detection从原理到实践本文主要介绍经典的目标检测算法yolo2的原理以及对应实现，实现地址见github：https://github.com/mjDelta/yolo2-keras。觉得实现效果不错的同学，欢迎star，fork，follow。原理部分笔者觉得要理解yolo2的原理，最主要理解anchor b…

2023年4月8日
000
Keras

Keras Xception Multi loss 细粒度图像分类

作者: 梦里茶如果觉得我的工作对你有帮助，就点个star吧关于这是百度举办的一个关于狗的细粒度分类比赛，比赛链接: http://js.baidu.com/ 框架 Keras Tensorflow后端硬件 Geforce GTX 1060 6G Intel® Core™ i7-6700 CPU Memory 8G 模型 Xception提取深度特征 …

2023年4月6日
000
Keras

运行Keras版本的Faster R-CNN(1)

Keras版本的Faster R-CNN源码下载地址：https://github.com/yhenon/keras-frcnn下载以后，用PyCharm打开（前提是已经安装了Tensorflow-gpu和Keras），打开以后可以看到项目的结构：修改requirements.txt，设置Keras到已安装的版本，如 Keras==2.0.8 建议版本不要…

2023年4月8日
000
PyTorch

Pytorch基础-张量基本操作

Pytorch 中，张量的操作分为结构操作和数学运算，其理解就如字面意思。结构操作就是改变张量本身的结构，数学运算就是对张量的元素值完成数学运算。一，张量的基本操作二，维度变换 2.1，squeeze vs unsqueeze 维度增减 2.2，transpose vs permute 维度交换三，索引切片 3.1，规则索引切片方式 3.2，gathe…

2023年4月6日
000
目标检测

目标检测算法DSSD的原理详解

论文地址：https://arxiv.org/abs/1701.06659Github 源码（caffe版）：https://github.com/chengyangfu/caffe/tree/dssd 1、文章概述 DSSD(Deconvolutional Single Shot Detector)是SSD算法改进分支中最为著名的一个，SSD的…

2023年4月8日
000
目标检测（四）Faster R-CNN: Towards Real-Time Object Detection with Region Proposal Networks

8作者：Shaoqing Ren, Kaiming He, Ross Girshick, and Jian Sun SPPnet、Fast R-CNN等目标检测算法已经大幅降低了目标检测网络的运行时间。可是尽管如此，仍然不能在工程上做到实时检测，这主要是因为region proposal computation耗时在整个网络用时中的占比较高。比如，Fast …

目标检测 2023年4月7日
000

合作推广

合作推广

返回顶部