【深度学习】：梯度下降，随机梯度下降（SGD），和mini-batch梯度下降

2023年4月11日上午4:22 • 深度学习

一.梯度下降

梯度下降就是最简单的用于神经网络当中用于更新参数的用法，计算loss的公式如下：

【深度学习】：梯度下降，随机梯度下降（SGD），和mini-batch梯度下降

有了loss function之后，我们立马通过这个loss求解出梯度，并将梯度用于参数theta的更新，如下所示：

【深度学习】：梯度下降，随机梯度下降（SGD），和mini-batch梯度下降

这样做之后，我们只需要遍历所有的样本，就可以得到一个最终的参数theta了，这个参数可能是全局最小值，也可能不是，因为很有可能走入了一个loss的局部最小值当中。

二.随机梯度下降（SGD）

随机梯度下降与梯度下降相比，其实也会遍历全部的样本，但是只会梯度在遍历同样样本数量的情况下会下降得更快。因为我们首先将全部样本切分成m个样本，然后对这m个样本进行遍历，更新参数，用一个一个切分后的样本更新完参数之后，保留目前的theta的值，基于这个theta的值，继续用下一个样本进行参数theta的优化。

下面是梯度下降的loss在图像当中的表示：

【深度学习】：梯度下降，随机梯度下降（SGD），和mini-batch梯度下降

这是SGD，将样本进行切分之后的loss的变化：

【深度学习】：梯度下降，随机梯度下降（SGD），和mini-batch梯度下降

三.mini-batch梯度下降

mini-batch和SGD稍微有点不同，那就是mini-batch每次进行参数更新的同时，使用了多个样本继续参数的更新，loss下降的速度会比SGD更慢，但是结果回避SGD更加准确。

这就是我们常用的用于梯度下降的方法啦！希望大家有所收获，有疑问的话可以在下方的疑问区提出！

本站文章如无特殊说明，均为本站原创，如若转载，请注明出处：【深度学习】：梯度下降，随机梯度下降（SGD），和mini-batch梯度下降 - Python技术站

赞 (0)

微信扫一扫

微信扫一扫

支付宝扫一扫

支付宝扫一扫

【深度学习】：一文入门Dropout层

上一篇 2023年4月11日

深度学习系列专题之优化方法（1）

下一篇 2023年4月11日

深度学习中卷积层和pooling层的输出计算公式(转)

原文链接：https://blog.csdn.net/yepeng_xinxian/article/details/82380707 1.卷积层的输出计算公式class torch.nn.Conv2d(in_channels, out_channels, kernel_size, stride=1, padding=0, dilation=1, groups…

深度学习 2023年4月13日
000
DMLC深度机器学习框架MXNet的编译安装

　　这篇文章将介绍MXNet的编译安装。　　MXNet的编译安装分为两步：首先，从C++源码编译共享库（libmxnet.so for linux，libmxnet.dylib for osx，libmxnet.dll for windows）。接着，安装语言包。 1. 构建共享库依赖　　目标是构建共享库文件。最小构建需求：最新的支持C++ …

深度学习 2023年4月13日
000
深度学习

如何理解深度学习中分布式训练中large batch size与learning rate的关系

转自：https://www.zhihu.com/people/xutan 最近在进行多GPU分布式训练时，也遇到了large batch与learning rate的理解调试问题，相比baseline的batch size，多机同步并行（之前有答案是介绍同步并行的通信框架NCCL（谭旭：如何理解Nvidia英伟达的Multi-GPU多卡通信框架NCCL？）…

2023年4月13日
000
深度学习

深度学习炼丹-数据标准化

当我们处理的数据具有不同尺度时，执行数据标准化操作是很有必要的。本文给出了数据标准化(Normalization)的定义、常用方法以及为什么要做数据标准化，并给出相关代码实现。前言一，Normalization 概述 1.1，Normalization 定义 1.2，什么情况需要 Normalization 1.3，为什么要做 Normalization…

2023年4月10日
000
深度学习之目标检测与目标识别

2020-09-21 参考：https://blog.csdn.net/qq_32241189/article/details/80573087 目前可以将现有的基于深度学习的目标检测与识别算法大致分为以下三大类： ① 基于区域建议的目标检测与识别算法，如R-CNN, Fast-R-CNN, Faster-R-CNN; ② 基于回归…

深度学习 2023年4月12日
000
[深度学习]Python/Theano实现逻辑回归网络的代码分析

首先PO上主要Python代码(2.7), 这个代码在Deep Learning上可以找到. 1 　　 # allocate symbolic variables for the data 2 index = T.lscalar() # index to a [mini]batch 3 x = T.matrix(‘x’) # the data is pres…

深度学习 2023年4月12日
000
深度学习Anchor Boxes原理与实战技术

深度学习Anchor Boxes原理与实战技术目标检测算法通常对输入图像中的大量区域进行采样，判断这些区域是否包含感兴趣的目标，并调整这些区域的边缘，以便更准确地预测目标的地面真实边界框。不同的模型可能使用不同的区域采样方法。在这里，我们介绍一种这样的方法：它生成多个大小和纵横比不同的边框，同时以每个像素为中心。这些边界框称为锚框。我们将在下面几节中练习基…

深度学习 2023年4月13日
000
《动手学深度学习》task06 批量归一化和残差网络；凸优化；梯度下降课后作业

Task06. 批量归一化和残差网络，凸优化，梯度下降课程笔记：https://www.cnblogs.com/guohaoblog/p/12356884.html 批量归一化和残差网络 1.nn. BatchNorm2d(6)的含义是 A全连接层的批量归一化, batchsize为6 B卷积层的批量归一化，batchsize为6 C全连接层的批量归一…

深度学习 2023年4月13日
000

合作推广

合作推广

返回顶部