训练深度学习网络时候，出现Nan 或者震荡

2023年4月9日下午10:09 • 深度学习

原因有多种，需要注意的是，要保证训练数据中没有脏数据，如果在training sample中出现了脏数据，那么在固定的迭代次数段，都会loss突然变nan，导致acc骤降，慢慢变0

https://www.zhihu.com/question/49346370

https://blog.csdn.net/VioletHan7/article/details/82012530

https://www.jianshu.com/p/9018d08773e6

震荡：

分析原因: 1:训练的batch_size太小

1. 当数据量足够大的时候可以适当的减小batch_size,由于数据量太大，内存不够。但盲目减少会导致无法收敛，batch_size=1时为在线学习。

2. batch的选择，首先决定的是下降方向，如果数据集比较小，则完全可以采用全数据集的形式。这样做的好处有两点，

1）全数据集的方向能够更好的代表样本总体，确定其极值所在。

2）由于不同权重的梯度值差别巨大，因此选取一个全局的学习率很困难。

3. 增大batchsize的好处有三点：

1）内存的利用率提高了，大矩阵乘法的并行化效率提高。

2）跑完一次epoch(全数据集)所需迭代次数减少，对于相同的数据量的处理速度进一步加快。

3）一定范围内，batchsize越大，其确定的下降方向就越准，引起训练震荡越小。

4. 盲目增大的坏处：

1）当数据集太大时，内存撑不住。

2）batchsize增大到一定的程度，其确定的下降方向已经基本不再变化。

总结：

1）batch数太小，而类别又比较多的时候，可能会导致loss函数震荡而不收敛，尤其是在你的网络比较复杂的时候。

2）随着batchsize增大，处理相同的数据量的速度越快。

3）随着batchsize增大，达到相同精度所需要的epoch数量越来越多。

4）由于上述两种因素的矛盾， Batch_Size 增大到某个时候，达到时间上的最优。

5）过大的batchsize的结果是网络很容易收敛到一些不好的局部最优点。同样太小的batch也存在一些问题，比如训练速度很慢，训练不容易收敛等。

6）具体的batch size的选取和训练集的样本数目相关

分析原因: 2:数据输入不对

1:数据输入不对包括数据的格式不是网络模型指定的格式,导致训练的时候网络学习的数据不是想要的; 此时会出现loss曲线震荡;

解决办法:检查数据输入格式,数据输入的路径;

分析原因: 3:训练脚本里面的路径是否配置正确

1:当脚本中的train.bin的路径或者模型参数的路径配置不对时,会导致训练模型结果不对.

解决办法:检查脚本配置是否正确.

本站文章如无特殊说明，均为本站原创，如若转载，请注明出处：训练深度学习网络时候，出现Nan 或者震荡 - Python技术站

深度学习

0 0 打赏

微信扫一扫

支付宝扫一扫

深度学习attention 机制了解

上一篇 2023年4月9日下午10:09

Vmvare + Ubuntu 16.04环境搭建 + 相关软件安装配置笔记【深度学习】

下一篇 2023年4月9日下午10:10

深度学习

Vmvare + Ubuntu 16.04环境搭建 + 相关软件安装配置笔记【深度学习】

前言由于学习与工作的需要，加上之前配置好的vmmachines都损坏了，我就重新弄一个ubuntu虚拟机，配置一下环境，给自己留个记录 1、文件 2、配置过程 1、在Vmware中新建虚拟机，自定义->稍后再安装操作系统，设置中选择自定义的ISO映像文件作为磁盘载入，进行安装 2、打开虚拟机，基本上按界面提示操作,安装完成再修改合适的分辨率 3、安装…

2023年4月9日
000
深度学习之DCGAN

1、知识点 “”” DCGAN:相比GAN而言，使用了卷积网络替代全连接卷积：256*256*3 — > 28*28*14 –>结果，即H,W变小，特征图变多反卷积(就是把卷积的前向和反向传播完全颠倒了) ：4*4*1024 —> 28 * 28 *1 –>结果即H,W变大，特征图变少特点： 1、判别模型：使用带…

深度学习 2023年4月12日
000
深度学习

深度学习扫盲笔记

第一章：概述深度学习：机器学习含有多个隐藏层有监督的：卷积，循环，递归无监督的：生成式类别标签： ground truth：表示直接收集到的数据使用sklearn进行训练集，测试集的拆分：留出法和k折交叉验证，分层抽样策略超参数：不变的，调节超参数找到能使模型取得较好性能的超参数第二章：特征工程目的是最大限度地从原始数据中提取特征以供算法和模…

2023年4月9日
000
「我去，这也能行！」令人惊叹的8个深度学习应用

2016 年，围棋程序 AlphaGo 击败人类顶尖选手，让大众了解到深度学习的概念。不仅如此，在计算机视觉和自然语言处理领域，深度学习已经有了广泛而成熟的应用场景。人脸识别、自动驾驶、安全防范，都有深度学习的身影。语音识别、问答系统、机器翻译，都是深度学习技术的模范实践。下面收集了一些深度学习的创意应用，希望能够帮助大家开开脑洞，并感受下深度学习在生活中…

深度学习 2023年4月11日
000
深度学习

神经网络与深度学习中文实战版–电子书

本书电子版获取方式：链接：https://pan.baidu.com/s/1DIwYOCAZCr2ZTh1-c5Zvnw?pwd=s61p 提取码：s61p。本书英⽂原版地址为：http://neuralnetworksanddeeplearning.com/ 。在学术著作中请引⽤英⽂原⽂为：Michael A. Nielsen, “Neural Netwo…

2023年4月9日
000
深度学习原理与框架-Alexnet(迁移学习代码) 1.sys.argv[1:](控制台输入的参数获取第二个参数开始) 2.tf.split(对数据进行切分操作) 3.tf.concat(对数据进行合并操作) 4.tf.variable_scope(指定w的使用范围) 5.tf.get_variable(构造和获得参数) 6.np.load(加载.npy文件)

1. sys.argv[1:] # 在控制台进行参数的输入时，只使用第二个参数以后的数据参数说明：控制台的输入:python test.py what, 使用sys.argv[1:]，那么将获得what这个数值 # test.py import sys print(sys.argv[1:]) 2. tf.split(value=x, num_or_siz…

深度学习 2023年4月13日
000
UFLDL深度学习笔记（六）卷积神经网络

1. 主要思路 “UFLDL 卷积神经网络”主要讲解了对大尺寸图像应用前面所讨论神经网络学习的方法，其中的变化有两条，第一，对大尺寸图像的每个小的patch矩阵应用相同的权值来计算隐藏层特征，称为卷积特征提取；第二，对计算出来的特征矩阵做“减法”，把特征矩阵纵横等分为多个区域，取每个区域的平均值(或最大值)作为输出特征，称为池化。这样做的原因主要是为了降低数…

深度学习 2023年4月13日
000
深度学习

基于深度学习的鸟类检测识别系统（含UI界面，Python代码）

鸟类识别是深度学习和机器视觉领域的一个热门应用，本文详细介绍基于YOLOv5的鸟类检测识别系统，在介绍算法原理的同时，给出Python的实现代码以及PyQt的UI界面。在界面中可以选择各种鸟类图片、视频以及开启摄像头进行检测识别；可通过UI界面选择文件，切换标记识别目标，支持切换模型，支持用户登录注册界面；基于YOLOv5模型训练实现，提供训练数据集和训练代…

2023年4月10日
000

训练深度学习网络时候，出现Nan 或者 震荡

震荡 ：

相关文章

训练深度学习网络时候，出现Nan 或者震荡

震荡：