深度学习中的梯度消失与梯度爆炸

2023年4月9日下午11:47 • 深度学习

在深度学习中，我们会听到梯度消失与梯度爆炸。这指的是梯度变得极小或极大。

为什么在深层次网络中，才容易发生梯度消失与梯度爆炸呢？这带来什么负面的影响？该怎么样来避免这种极端情况？

`梯度消失`与`梯度爆炸`的原因

考虑一种极端情况，假设我们有一个层数很深的神经网络（L层），每层只有一个神经元，且激活函数g(z)=z。
* 如果权重都是0.5，则最终输出y就是0.5的L次方乘以x，可见这个值会随L增加而递减到非常小
* 如果权重都是1.5，则最终输出y就是1.5的L次方乘以x，可见这个值会随L增加而递增到非常大

这就是深层次网络中，网络层次对输出值影响巨大的基本原理。
* 权重矩阵只要比单位阵稍微大一点，在深层次网络中，激活函数将会成指数级递增
* 权重矩阵只要比单位阵稍微大一点，在深层次网络中，激活函数将会成指数级递减

推理到损失函数（导数、梯度）的计算中，也是一样的。

`梯度消失`与`梯度爆炸`的影响

梯度消失与梯度爆炸会导致模型的训练变得复杂：
* 不容易收敛，梯度下降算法会花费很长时间
* 梯度下降算法的收敛步长非常小

如何避免`梯度消失`与`梯度爆炸`

权重矩阵的初始值，不能比1大很多，也不能比1小很多。所以，初始化权重值的大小设置合理，就不容易发生梯度消失与梯度爆炸。

根据研究，我们可以用下面的值来初始化权重

np.random.randn(_shape_)*np.sqrt(1/n)

本站文章如无特殊说明，均为本站原创，如若转载，请注明出处：深度学习中的梯度消失与梯度爆炸 - Python技术站

赞 (0)

微信扫一扫

微信扫一扫

支付宝扫一扫

支付宝扫一扫

centos7 手把手从零搭建深度学习环境 (以TensorFlow2.0为例)

上一篇 2023年4月9日

深度学习简单知识

下一篇 2023年4月9日

神经网络、深度学习创新点的思考

从特征学习（Feature Learning）的观点来看，神经网络尤其是深度神经网络（也即是深度学习）是十分强大的特征学习方法。例如就可将 Autoencode 视为一种特征降维的方法。也正因如此，在经过深度学习模型（ANN、CNN、RNN、LSTM等模型）的训练之后，其实是学习到了一些很好的特征，便可以用来分类（classification），recog…

深度学习 2023年4月13日
000
深度学习

深度学习中神经网络的几种权重初始化方法

2018年04月25日 15:01:32 天泽28 阅读数 11981更多分类专栏： machine learning&deep learning 版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。本文链接：https://blog.csdn.net/u012328159/article/…

2023年4月9日
000
深度学习

Pytorch学习笔记之tensorboard

训练模型过程中，经常需要追踪一些性能指标的变化情况，以便了解模型的实时动态，例如：回归任务中的MSE、分类任务中的Accuracy、生成对抗网络中的图片、网络模型结构可视化…… 除了追踪外，我们还希望能够将这些指标以动态图表的形式可视化显示出来。 TensorFlow的附加工具Tensorboard就完美的提供了这些功能。不过现在经过Pytorch团队的努力…

2023年4月9日
000
深度学习进阶-读书笔记

深度学习进阶-读书笔记图像处理 1.1 风格迁移 l 如何描述一张图的绘画风格：Texture representation（纹理表示）；feature-map作为内容的表征形式 l 怎么权衡内容和风格： 1.2 图像检索 l 基于内容的图像检索：根据图片的颜色、纹理及其类别信息检索图片 l 基于哈希的图像检索架构 l 图像特征表示：Hand crafte…

深度学习 2023年4月16日
000
卷积神经网络CNN与深度学习常用框架的介绍与使用

一、神经网络为什么比传统的分类器好 1.传统的分类器有 LR（逻辑斯特回归）或者 linear SVM ，多用来做线性分割，假如所有的样本可以看做一个个点，如下图，有蓝色的点和绿色的点，传统的分类器就是要找到一条直线把这两类样本点分开。对于非线性可分的样本，可以加一些kernel核函数或者特征的映射使其成为一个曲线或者一个曲面将样本分开。但为什么效果不好…

深度学习 2023年4月12日
000
label studio 结合 MMDetection 实现数据集自动标记、模型迭代训练的闭环

一个 AI 方向的朋友因为标数据集发了篇 SCI 论文，看着他标了两个多月的数据集这么辛苦，就想着人工智能都能站在围棋巅峰了，难道不能动动小手为自己标数据吗？查了一下还真有一些能够满足此需求的框架，比如 [cvat]、 [doccano] 、 [label studio]等，经过简单的对比后发现还是 label studio 最好用。本文首先介绍了 labe…

深度学习 2023年4月11日
000
[Tensorflow实战Google深度学习框架]笔记1 – 王老头

[Tensorflow实战Google深度学习框架]笔记1 　　本系列为Tensorflow实战Google深度学习框架知识笔记，仅为博主看书过程中觉得较为重要的知识点，简单摘要下来，内容较为零散，请各位指出，共同进步。　　2017-11-05 　　[第一章]深度学习简介　　1. 机器学习的定义：“如果一个程序可以在任务T上，随着经验E的增加，效果P也可…

深度学习 2023年4月15日
000
深度学习小记

0 前言近段时间，由于工作需要，一直在看深度学习的各种框架，主要是Caffe和Tensorflow。并且在可预见的未来，还会看更多不同的深度学习框架。最开始我是以软件工程师的角度去阅读这些框架的，说实话，Caffe的代码框架逻辑清晰相对好理解一点，而TensorFlow就比较麻烦了，里面内容太多，函数调用链非常长，且使用了大量的C++11语法，这对于C++…

深度学习 2023年4月13日
000

合作推广

合作推广

返回顶部