【深度学习】：梯度下降，随机梯度下降（SGD），和mini-batch梯度下降

2023年4月11日上午4:22 • 深度学习

yizhihongxing

一.梯度下降

梯度下降就是最简单的用于神经网络当中用于更新参数的用法，计算loss的公式如下：

【深度学习】：梯度下降，随机梯度下降（SGD），和mini-batch梯度下降

有了loss function之后，我们立马通过这个loss求解出梯度，并将梯度用于参数theta的更新，如下所示：

【深度学习】：梯度下降，随机梯度下降（SGD），和mini-batch梯度下降

这样做之后，我们只需要遍历所有的样本，就可以得到一个最终的参数theta了，这个参数可能是全局最小值，也可能不是，因为很有可能走入了一个loss的局部最小值当中。

二.随机梯度下降（SGD）

随机梯度下降与梯度下降相比，其实也会遍历全部的样本，但是只会梯度在遍历同样样本数量的情况下会下降得更快。因为我们首先将全部样本切分成m个样本，然后对这m个样本进行遍历，更新参数，用一个一个切分后的样本更新完参数之后，保留目前的theta的值，基于这个theta的值，继续用下一个样本进行参数theta的优化。

下面是梯度下降的loss在图像当中的表示：

【深度学习】：梯度下降，随机梯度下降（SGD），和mini-batch梯度下降

这是SGD，将样本进行切分之后的loss的变化：

【深度学习】：梯度下降，随机梯度下降（SGD），和mini-batch梯度下降

三.mini-batch梯度下降

mini-batch和SGD稍微有点不同，那就是mini-batch每次进行参数更新的同时，使用了多个样本继续参数的更新，loss下降的速度会比SGD更慢，但是结果回避SGD更加准确。

这就是我们常用的用于梯度下降的方法啦！希望大家有所收获，有疑问的话可以在下方的疑问区提出！

本站文章如无特殊说明，均为本站原创，如若转载，请注明出处：【深度学习】：梯度下降，随机梯度下降（SGD），和mini-batch梯度下降 - Python技术站

赞 (0)

微信扫一扫

微信扫一扫

支付宝扫一扫

支付宝扫一扫

【深度学习】：一文入门Dropout层

上一篇 2023年4月11日

深度学习系列专题之优化方法（1）

下一篇 2023年4月11日

深度学习和控制有关系吗

hinton的论文只下载过一篇，而且没有深入看。但是这两年没少听和看各种机器学习的报告和教程。我觉得最好的两套教程就是andrew和复旦的吴老师这两个了。机器学习本身就是从人工智能脱出的子学科。机器学习要学的内容挺多的。第一次接触直到现在很多概念都是印象，比如加窗，紧支，rbf, cnn, fnn, dl, bp, hopfield, svm等等。主要是…

深度学习 2023年4月11日
000
读李宏毅《一天看懂深度学习》——Deep Learning Tutorial

李宏毅《一天看懂深度学习》学习笔记大牛推荐的入门用深度学习导论，刚拿到有点懵，第一次接触PPT类型的学习资料，但是耐心看下来收获还是很大的，适合我这种小白入门哈哈。原PPT链接：http://www.slideshare.net/tw_dsconf/ss-62245351?qid=108adce3-2c3d-4758-a830-95d0a57e46bc&…

深度学习 2023年4月11日
000
NLP

自然语言处理神经网络模型入门概述

深度学习对自然语言处理领域产生了巨大影响。但是，作为初学者，您从哪里开始？深度学习和自然语言处理都是一个巨大的领域。每个领域需要关注的突出方面是什么，深度学习对NLP的哪些领域影响最大？在这篇文章中，您将发现有关自然语言处理深度学习相关的入门知识。阅读这篇文章后，您将知道：对自然语言处理领域影响最大的神经网络架构。可以通过深度学习成功解决的自然语…

2023年2月12日
000
《神经网络和深度学习》系列文章七：实现我们的神经网络来分类数字（下）

尝试创建只有两层的神经网络，一个784个神经元的输入层和一个10个神经元的输出层，没有隐含层。用随机梯度下降法来训练这个网络。你能取得多高的分类精度？早些时候，我跳过了MNIST数据时如何被加载的细节。它相当的简单。为了完整性，这是代码。被用于存储MNIST数据的数据结构在文档注释中被说明。这是简单明了的事情，由Numpy的ndarray对象构成的元组和列…

深度学习 2023年4月12日
000
深度学习

深度学习之Transformer网络

【博主使用的python版本：3.6.8】本次没有额外的资料下载 Packages ort tensorflow as tf import pandas as pd import time import numpy as np import matplotlib.pyplot as plt from tensorflow.keras.layers impo…

2023年4月10日
000
一文看懂迁移学习：怎样用预训练模型搞定深度学习？ ——重用神经网络的结构

以上示例都是人类的迁移学习的能力。迁移学习是什么？所谓迁移学习，或者领域适应Domain Adaptation，一般就是要将从源领域（Source Domain）学习到的东西应用到目标领域（Target Domain）上去。源领域和目标领域之间往往有gap/domain discrepancy（源领域的数据和目标领域的数据遵循不同的分布）。迁移学习能够…

深度学习 2023年4月12日
000
什么样的数据集不适合用深度学习?

github博客传送门csdn博客传送门什么样的数据集不适合用深度学习？数据集太小,数据样本不足时,深度学习相对其它机器学习算法,没有明显优势。数据集没有局部相关特性,目前深度学习表现比较好的领域主要是图像／语音／自然语言处理等领域,这些领域的一个共性是局部相关性。图像中像素组成物体，语音信号中音位组合成单词，文本数据中单词组合成句子,这些特征元素的组…

深度学习 2023年4月12日
000
深度学习面试题21：批量归一化(Batch Normalization,BN)

　　BN的由来　　BN的作用　　BN的操作阶段　　BN的操作流程　　BN可以防止梯度消失吗　　为什么归一化后还要放缩和平移　　BN在GoogLeNet中的应用　　参考资料 BN的由来 BN是由Google于2015年提出，论文是《Batch Normalization_ Accelerating Deep Network Training …

深度学习 2023年4月12日
000

合作推广

合作推广

返回顶部