深度学习面试题08：梯度消失与梯度爆炸

2023年4月12日下午8:37 • 深度学习

　　梯度消失

　　梯度爆炸

　　参考资料

以下图的全连接神经网络为例，来演示梯度爆炸和梯度消失：

深度学习面试题08：梯度消失与梯度爆炸

深度学习面试题08：梯度消失与梯度爆炸

梯度消失

在模型参数w都是(-1,1)之间的数的前提下，如果激活函数选择的是sigmod(x)，那么他的导函数σ’(x)的值域为(0,0.25]，即如下三项的范围都是(0,0.25]

深度学习面试题08：梯度消失与梯度爆炸

那么w1的导数会有很多(0,0.25]范围的数累乘，就会造成w1的导数很小，这就是梯度消失。梯度消失的后果就是，w1的更新就会很慢，使得神经网络的学习变得很慢。

解决方法：使用relu(x)这样的激活函数，因为他的导函数的值可以稳定在1，累乘后不会让梯度消失。

梯度爆炸

如果模型参数不是(-1,1)之间的数，比如是50，对w1求导时，就会出现很多大的数的累乘，更新参数会出现问题，无法完成网络学习

解决方法：合理的初始化模型参数

参考资料

对于梯度消失和梯度爆炸的理解

https://www.cnblogs.com/pinking/p/9418280.html

《图解深度学习与神经网络：从张量到TensorFlow实现》_张平

本站文章如无特殊说明，均为本站原创，如若转载，请注明出处：深度学习面试题08：梯度消失与梯度爆炸 - Python技术站

赞 (0)

微信扫一扫

微信扫一扫

支付宝扫一扫

支付宝扫一扫

深度学习面试题09：一维卷积（Full卷积、Same卷积、Valid卷积、带深度的一维卷积）

上一篇 2023年4月12日

深度学习面试题10：二维卷积（Full卷积、Same卷积、Valid卷积、带深度的二维卷积）

下一篇 2023年4月12日

吴恩达《深度学习》第一课第四周编程作业（多层神经网络）

参考链接：https://blog.csdn.net/u013733326/article/details/79767169 搭建多层神经网络步骤： 1、初始化 2、前向传播　　(1)线性部分　　(2)激活部分 3、计算代价（判断有没有学习） 4、反向传播　　（1）线性部分　　（2）激活部分 5、更新参数 6、预测 # coding=utf-8 # …

深度学习 2023年4月11日
000
【深度学习基础课程】单一神经元

深度学习初级课程 1.单一神经元 2.深度神经网络 3.随机梯度下降法 4.过拟合和欠拟合 5.剪枝、批量标准化 6.二分类问题应用.用TPU探测希格斯玻色子前言本套课程仍为 kaggle 课程《Intro to Deep Learning》，仍按之前《机器学习》系列课程模式进行。前一系列《Keras入门教程》内容，与本系列有部分重复内容，但重点在于快…

深度学习 2023年4月10日
000
深度学习

深度学习（dropout）

other_techniques_for_regularization 随手翻译，略作参考，禁止转载 www.cnblogs.com/santian/p/5457412.html Dropout: Dropout is a radically different technique for regularization. Unlike L1 and L2 r…

2023年4月9日
000
《python深度学习》笔记—5、CNN的多个卷积核为什么能提取到不同的特征

一、总结一句话总结：过滤器的权重是随机初始化的只有卷积核学习到不同的特征，才会减少成本函数随机初始化的权重可能会确保每个过滤器收敛到成本函数的不同的局部最小值。每个过滤器开始模仿其他过滤器是不可能的，因为这几乎肯定会导致成本函数的增加，梯度下降算法不会让模型朝这个方向发展。二、CNN的多个卷积核为什么能提取到不同的特征转自或参考：CNN的…

深度学习 2023年4月13日
000
深度学习理论解释基础

参考文献：特征提取：　　在深度学习中，下层携带的信息量会大于上层的信息量。最下层被认为是基。譬如高维空间中，总有一组完备基。任何一个向量都可以通过完备基线性表示。这是，经过多层表示，后面的各个向量组成的矩阵的秩小于等于其下一层个向量组成矩阵的秩当然，我们这里一开始引入时，也认为任何一幅图可以表示为400张图的线性组合。　　但实际深度学习中的层还有一…

深度学习 2023年4月13日
000
使用GIS平台玩转深度学习

深度学习，即使用分层的人工神经网络进行非结构化数据学习，在过去几年中在研究中获得了极大的普及。如果没有专业知识的话，它在GIS中的集成并不是那么容易。然而，正在开发的新工具可能会让更广泛的研究人员更好地利用机器学习和深度学习。到目前为止，出现了两个优质的平台。近年来，ArcGIS大力开发更好的用于深度学习的工具。他们使用了各种为图像分析开发的平台，例…

深度学习 2023年4月13日
000
深度学习

模型汇总24 – 深度学习中Attention Mechanism详细介绍：原理、分类及应用

lqfarmer 深度学习研究员。欢迎扫描头像二维码，获取更多精彩内容。 946 人赞同了该文章 Attention是一种用于提升基于RNN（LSTM或GRU）的Encoder + Decoder模型的效果的的机制（Mechanism），一般称为Attention Mechanism。Attention Mechanism目前非常流行，广泛应用于机器翻译、语…

2023年4月9日
000
吴恩达深度学习笔记（七） —— Batch Normalization

主要内容：一.Batch Norm简介二.归一化网络的激活函数三.Batch Norm拟合进神经网络四.测试时的Batch Norm 一.Batch Norm简介 1.在机器学习中，我们一般会对输入数据进行归一化处理，使得各个特征的数值规模处于同一个量级，有助于加速梯度下降的收敛过程。 2.在深层神经网络中，容易出现梯度小时或者梯度爆炸的…

深度学习 2023年4月13日
000

合作推广

合作推广

返回顶部