深度学习中常见的优化方法——SGD，Momentum，Adagrad，RMSprop， Adam

2023年4月12日下午8:00 • 深度学习

SGD

SGD是深度学习中最常见的优化方法之一，虽然是最常使用的优化方法，但是却有不少常见的问题。

learning rate不易确定，如果选择过小的话，收敛速度会很慢，如果太大，loss function就会在极小值处不停的震荡甚至偏离。每个参数的learning rate都是相同的，如果数据是稀疏的，则希望出现频率低的特征进行大一点的更新。深度神经网络之所以比较难训练，并不是因为容易进入局部最小，而是因为学习过程容易进入马鞍面中，在这种区域中，所有方向的梯度值几乎都是0。

Momentum(动量)

Momentum借助了物理中的动量的概念，即前几次的梯度也会参与计算。为了表示动量，引入一个新的变量V，V是之前的梯度的累加，但是在每个回合都会有一定的衰减。它的特点是当前后梯度方向不一致时，能够加速学习，前后梯度方向一致时，能够抑制震荡。

深度学习中常见的优化方法——SGD，Momentum，Adagrad，RMSprop， Adam

其中，v就体现了累加的梯度，深度学习中常见的优化方法——SGD，Momentum，Adagrad，RMSprop， Adam 表示学习率，当前后梯度一致时，v的值就越来越大，因而加速训练，当出现震荡时，v能够起到缓冲震荡的作用。

Nesterov Momentum

对Momentum的一种改进：先对参数进行估计，然后使用估计估计后的参数来计算误差。

深度学习中常见的优化方法——SGD，Momentum，Adagrad，RMSprop， Adam

先通过冲量对参数进行更新，相当于向前迈了一步，在计算出这时的梯度，利用这时的梯度进行更新参数。

深度学习中常见的优化方法——SGD，Momentum，Adagrad，RMSprop， Adam

区别于momentum的地方在于先进行了参数的更新。

Adagrad

在上述的优化算法中，参数的步长都是相的，那么能否为不同的常数设置不同的步长呢，对于梯度大的参数设置小的步长，对于梯度小的参数，设置大的步长。类比于在缓坡上面，我们可以大步长的前进，在陡坡上面，这需要小步长的前进。adagrad则是参考了这个思路。

深度学习中常见的优化方法——SGD，Momentum，Adagrad，RMSprop， Adam

上述的式子中，对梯度的平方进行了累加，所以r值一直都是递增的，故梯度的改变量会越来越小。对于较小的梯度，r的开方若小于1的，故梯度的改变量则较大，对于较大的梯度，r的开放较大，所以梯度改变量则较小。该优化方法的问题是，r的值一直是递增的，导致梯度梯度改变量会一直减小。

RMSprop

RMSprop是对Adagrad的改进，通过引入一个衰减系数，让r每回合都衰减一定的比例。这种方法能够很好的解决Adagrad的过早结束的问题，适合处理非平衡的目标，对于RNN 的效果很好。

深度学习中常见的优化方法——SGD，Momentum，Adagrad，RMSprop， Adam

该算法的做法是通过一个参数来控制r的值。

Adam

Adam的名称是adaptive moment estimation，自适应矩估计。它的本质上是带有动量的RMSprop，利用梯度的一阶矩估计和二阶矩估计调整每个参数的学习率。

深度学习中常见的优化方法——SGD，Momentum，Adagrad，RMSprop， Adam

其中，s是一阶矩估计，r是二阶矩估计，一阶矩部分中就是带有冲量的部分，二阶矩中就是使得各个参数有不同的梯度。

深度学习中常见的优化方法——SGD，Momentum，Adagrad，RMSprop， Adam

优化算法的选择

如果数据是稀疏的，就用自适应方法，即adagrad，adadelte，RMSprop，Adam。这几种算法在很多的情况下都是相似的，通过Adam是比较好的选择。如果需要快速的验证新模型可以使用Adam；当模型上线发布时，可以使用SGD进行模型的极致优化。

本站文章如无特殊说明，均为本站原创，如若转载，请注明出处：深度学习中常见的优化方法——SGD，Momentum，Adagrad，RMSprop， Adam - Python技术站

赞 (0)

微信扫一扫

微信扫一扫

支付宝扫一扫

支付宝扫一扫

深度学习（十五） TextCNN理解

上一篇 2023年4月12日

【RS】A review on deep learning for recommender systems: challenges and remedies- 推荐系统深度学习研究综述：挑战和补救措施

下一篇 2023年4月12日

人工智能——深度学习介绍

　　　　AI系统需要具备自己获取知识的能力，即从原始数据中提取模式的能力，这种能力被称为机器学习。　　　　一个称为逻辑回归的简单机器学习算法可以可以决定是否跑妇产，这种能力被称为逻辑回归。　　　　区分垃圾电子邮件和合法电子邮件，这种能力的算法是朴素贝叶斯算法。　　　　这些简单的机器学习算法的性能在很大程度上依赖于给定数据的表示。　　　　表示学习算法的…

深度学习 2023年4月10日
000
边玩边学！交互式可视化图解！快收藏这18个机器学习和数据科学网站！⛵

机器学习算法理论比较枯燥乏味，但有许多有趣且有用的网站，您可以像游戏一样交互式操作，并同时学习机器学习概念、模型和应用知识。以下是 ShowMeAI 为大家整理的18个交互式机器学习网站，学起来！ ? 作者：韩信子@ShowMeAI? 机器学习实战系列：https://www.showmeai.tech/tutorials/41? 深度学习实战系列：http…

深度学习 2023年4月11日
000
深度学习

深度学习-目标检测（R-FCN）

一、R-FCN初探 1. R-FCN与传统二阶段网络的异同点　　　　图1 R-FCN与传统二阶段网络的异同点　　相同点：首先，两者二阶段的检测框架（全卷积子网络+RoI-wise subnetwork）; 其次两者最终输出的结果都是相应的类别和对应的BBox；　　不同点：如上图所示，我们可以看到和Faster R-CNN相比，R-FCN具有更深的共…

2023年4月9日
000
TCN代码详解-Torch (误导纠正)

详细解释TCN结构，图解与代码解释 TCN代码详解-Torch (误导纠正) 1. 绪论 TCN网络由Shaojie Bai， J. Zico Kolter， Vladlen Koltun 三人于2018提出。对于序列预测而言，通常考虑循环神经网络结构，例如RNN、LSTM、GRU等。他们三个人的研究建议我们，对于某些序列预测（音频合成、字级语言建模和机器翻…

深度学习 2023年4月10日
000
盘点深度学习中的损失函数

损失函数度量的是训练的模型与真实模型之间的距离。一般以最小化损失函数为目标，对模型进行不断优化。常见的损失函数在计算过程中都会接受两个参数：模型预测值y_pred和正确答案y_true。由于背后的数学计算过程相同，所以即使是不同深度学习框架这些损失函数的api也是大同小异。本文以keras为例，罗列出几个常见的损失函数。均方误差 mean square…

深度学习 2023年4月10日
000
4个提高深度学习模型性能的技巧

介绍过去两年的大部分时间，我几乎都在深度学习领域工作。这是一个相当好的经历，这中间我参与了图像和视频数据相关的多个项目。在那之前，我处于边缘地带，我回避了对象检测和人脸识别等深度学习概念。直到2017年底才开始深入研究。在这段时间里，我遇到了各种各样的难题。我想谈谈四个最常见的问题，大多数深度学习实践者和爱好者在他们的旅程中都会遇到。如果你之前参与过深…

深度学习 2023年4月13日
000
深度学习之加载VGG19模型分类识别

主要参考博客： https://blog.csdn.net/u011046017/article/details/80672597#%E8%AE%AD%E7%BB%83%E4%BB%A3%E7%A0%81http://www.cs.toronto.edu/~frossard/post/vgg16/ 1、物体分类 imagenet_classes.py cla…

深度学习 2023年4月11日
000
深度学习笔记之【随机梯度下降（SGD）】

几乎所有的深度学习算法都用到了一个非常重要的算法：随机梯度下降（stochastic gradient descent,SGD) 随机梯度下降是梯度下降算法的一个扩展机器学习中一个反复出现的问题：好的泛化需要大的训练集，但是大的训练集的计算代价也更大机器学习算法中的代价函数通常可以分解成每个样本的代价函数的总和。训练数据的负条件对数似然函数可以写…

深度学习 2023年4月10日
000

合作推广

合作推广

返回顶部