深度学习模型训练技巧 Tips for Deep Learning

2023年4月10日下午3:20 • 深度学习

一、深度学习建模与调试流程

先看训练集上的结果怎么样（有些机器学习模型没必要这么做，比如决策树、KNN、Adaboost 啥的，理论上在训练集上一定能做到完全正确，没啥好检查的）

Deep Learning 里面过拟合并不是首要的问题，或者说想要把神经网络训练得好，至少先在训练集上结果非常好，再考虑那些改善过拟合的技术（BN，Dropout 之类的）。否则的话回去检查三个 step 哪里有问题。

深度学习模型训练技巧 Tips for Deep Learning

Deep Learning 中的方法为了解决两个主要问题而提出：1.训练集做得不好；2.训练集做得好，测试集做得不好

实际应用的时候搞清楚自己面对的问题，选择对应的技巧。

二、激活函数

1. sigmoid

梯度消失：网络很深的时候，靠近输入的 hidden layers 的梯度对损失函数影响很小，参数更新的就很慢；靠近输出的情况反之。前面几层的参数都还没怎么更新的时候就收敛了。

原因也比较简单，反向传播的时候每经过一层，都会乘上小于 1 的数（sigmoid 函数会把输入压到 0～1 之间），结果就越来越衰减。

早期用 RBM ，先训练好前面几层。

2. ReLU

计算快；有些生物学的来源；相当于无穷多个不同偏置的sigmoid函数叠加；不存在梯度消失

输出要么是0，要么是输入本身，相当于把原来的网络变成一个 thinner linear network。

这样网络还是非线性的吗？ —— 是。只要输入的变化比较大，跨越函数分段，网络依旧具有非线性。

好像不可微？ —— 确实。但做浮点运算也几乎不会正好要在原点处计算微分，所以直接忽略这个问题。

一些变种，亲测过确实会有提升。

深度学习模型训练技巧 Tips for Deep Learning

3. maxout network

每个神经元的激活函数的具体形式，是可以学习来的（不一定非得像 ReLU 那样在原点分段）：

深度学习模型训练技巧 Tips for Deep Learning

哪些神经元要被 group 起来是事先决定的（比如随机2个或者3个一组之类的，几个一组也可以作为一个参数来学习）。

深度学习模型训练技巧 Tips for Deep Learning

ReLU 就是特殊情况下的 maxout ；但 maxout 可以实现更多可能的激活函数（具体是什么样的函数，根本上是由参数 w 决定的）。

怎么训练？—— 给定一个输入，是能够知道每次取 max，留下的是哪一条路径。训练去掉不作用的神经元之后的“瘦长”的线性网络就行了。

怎么保证参数都能被更新？—— 训练的时候每次给不同的输入数据，去掉的神经元是不一样的。所以一直给不同的输入，差不多每个参数都会被更新到。

三、梯度下降的改进

1. Adagrad　

在梯度下降中已经总结过，在不同方向上需要不同的学习率。

学习率时间衰减 + 从开始到当前时刻的梯度平方和求平均来估计二阶微分的大小趋势

深度学习模型训练技巧 Tips for Deep Learning

2. RMSProp

error surface 非常复杂，即使在同一个方向上，学习率也需要不断调整。进阶版 Adagrad，动态调整学习率。

深度学习模型训练技巧 Tips for Deep Learning

深度学习模型训练技巧 Tips for Deep Learning

在 decaying 累计的先前梯度，通过调整alpha的大小，来选择是考虑先前的梯度（t 时刻之前的累积）多一些，还是当前的梯度（t时刻的）多一些

真的会卡在 local minima 吗？

实际这种情况下的几率很小（by lecun）如果是 local minima 的话，那在每一个方向上都得是“谷底”，参数越多这个几率就越小。

3. Momentum

解决一点 local minima 和 plateau 的问题

每次移动的方向不仅考虑当前时刻的梯度，也考虑之前移动的方向（惯性）。

用 v^t 来记录 t 时刻移动的方向，v⁰ = 0；参数更新的公式为：

v^t+1 = λv^t- ηg^t

θ^t+1 = θ^t+ v^t+1

例如：第一次更新 θ¹ = θ⁰+ v¹= θ⁰+ λv⁰- ηg⁰ = θ⁰- ηg⁰

　　　第二次更新 θ²= θ¹+ v²= θ¹+ λv¹- ηg¹ = θ¹+ (λ)²v⁰- ληg⁰ - ηg¹ = θ¹- ληg⁰ - ηg¹

所以化简的递推公式为 θ^t+1= θ^t - ηg^t - ληg^t-1 - ... - (λ)^tηg⁰

　　

深度学习模型训练技巧 Tips for Deep Learning

深度学习模型训练技巧 Tips for Deep Learning

另一个角度理解 v：把公式展开，v 其实就是以往所有时刻梯度的 weighted sum，只不过越往前的初始时刻的梯度被考虑的越少（每往前一个时刻就多乘一个λ），但也依旧对当前要更新的方向存在影响。

深度学习模型训练技巧 Tips for Deep Learning

4. Adam

RMSProp + Momentum，利用梯度的一阶矩估计和二阶矩估计动态调整每个参数的学习率。

深度学习模型训练技巧 Tips for Deep Learning

其中，在迭代初始阶段，m_t和 v_t有一个向初值的偏移（过多的偏向了 0），因此可以对一阶和二阶动量做偏置校正 (bias correction)，这样每次迭代学习率都有一个确定的范围，参数更新比较平稳。

四、正则化

1. Early Stopping

机器学习中比较常见的技巧

深度学习模型训练技巧 Tips for Deep Learning

2. Dropout

神经网络中才会用

随机 kill 掉一定比例的神经元。测试的时候不做，而且还要补偿参数。

深度学习模型训练技巧 Tips for Deep Learning

深度学习模型训练技巧 Tips for Deep Learning

为什么要这么做？

如果不乘以 1 - dropout rate，参数其实是比较大的：

深度学习模型训练技巧 Tips for Deep Learning

Dropout 可以理解成是一种 Ensemble，因为训练时每次都随机干掉一部分网络，但测试时要综合起来全部都用。

深度学习模型训练技巧 Tips for Deep Learning

本站文章如无特殊说明，均为本站原创，如若转载，请注明出处：深度学习模型训练技巧 Tips for Deep Learning - Python技术站

赞 (0)

微信扫一扫

微信扫一扫

支付宝扫一扫

支付宝扫一扫

mxnet：结合R与GPU加速深度学习（转）

上一篇 2023年4月10日下午3:19

深度学习之人脸识别——2020.2.9

下一篇 2023年4月10日下午3:20

【神经网络和深度学习】笔记 – 第三章如何提高神经网络学习算法的效果

文章导读： 1.交叉熵损失函数　　1.1 交叉熵损失函数介绍　　1.2 在MNIST数字分类上使用交叉熵损失函数　　1.3 交叉熵的意义以及来历　　1.4 Softmax 2. 过拟合和正则化　　2.1 过拟合　　2.2 正则化　　2.3 为什么正则化可以减轻过拟合问题　　2.4 正则化的其它方法 3. 参数初始化 4. 其它方法　　4.1…

深度学习 2023年4月11日
000
深度学习 Bottleneck layer / Bottleneck feature

最近在学习deeplearning的时候接触到了bottle-neck layer，好奇它的作用于是便扒了一些论文（论文链接放在文末吧），系统的了解一下bottle-neck feature究竟有什么用。论文[1]中对bottle-neck feature的介绍：对应的图示如下：直观的理解是这玩意儿应该是用来降维用的，没错，那为什么用它比较好呢，另…

深度学习 2023年4月11日
000
PyTorch中使用深度学习（CNN和LSTM）的自动图像标题

深度学习现在是一个非常猖獗的领域 – 有如此多的应用程序日复一日地出现。深入了解深度学习的最佳方法是亲自动手。尽可能多地参与项目，并尝试自己完成。这将帮助您更深入地掌握主题，并帮助您成为更好的深度学习实践者。在本文中，我们将看一个有趣的多模态主题，我们将结合图像和文本处理来构建一个有用的深度学习应用程序，即图像字幕。图像字幕是指从图像生成文本描述的过程 -…

深度学习 2023年4月12日
000
深度学习原理与框架-Tfrecord数据集的制作 1.tf.train.Examples(数据转换为二进制) 3.tf.image.encode_jpeg(解码图片加码成jpeg) 4.tf.train.Coordinator(构建多线程通道) 5.threading.Thread(建立单线程) 6.tf.python_io.TFR(TFR读入器)

1. 配套使用: tf.train.Examples将数据转换为二进制，提升IO效率和方便管理对于int类型： tf.train.Examples(features=tf.train.Features(feature=tf.train.Feature(int64_list=tf.train.Int64List(value=[value])))) …

深度学习 2023年4月13日
000
C++深度解析教程学习笔记（1）C到C++的升级

比如商场收银系统 2.C 到 C++ 的升级 2.1变量的定义 C++中所有的变量都可以在需要使用时再定义,而 C 语言中的变量都必须在作用域开始位置定义。 2.2 register 关键字 (1)register 关键字请求编译器将局部变量存储于寄存器中在 C++中依然支持 register 关键字,但这只是为了兼容 C，C++编译器有自己的优化方式,在…

深度学习 2023年4月12日
000
深度学习

深度学习-练习2 多变量线性回归

多变量线性回归在这个练习中，我们主要解决的问题是房价的数据，在数据集中http://openclassroom.stanford.edu/MainFolder/courses/MachineLearning/exercises/ex3materials/ex3Data.zip 数据是Portland, Oregon的房价数据共47个，变量是房价面积和卧室…

2023年4月9日
000
干货分享!深度学习几何画板绘图技巧！

随着科技的进步，传统化的教育教学方式已经很难适应现代化的教学进程，而现代化的教学方式要求使用多媒体教学，向学生们展示教学知识，相关的辅助工具软件就显得尤为的重要。将几何画板运用于教学中，是符合新型教学模式要求的。它作为一种新的认知工具的独特优势，这是任何传统的教学手段和模型所无法替代的，并且具有良好的教学效果，在未来一定能得到广泛的使用。下面就让小编来给大家…

深度学习 2023年4月10日
000
深度学习

【深度学习】OMP Error #15 Initializing libiomp5md.dll, but found libiomp5md.dll already initialized 报错提示完美解决方案

重新安装了PyTorch CUDA后运行yolov5的train.py遇到如下报错 // 本次 opencv、torch、torchvision 都是通过whl文件安装的可能会导致此问题问题 // 之前使用conda命令在线安装没有遇到这个问题完整报错提示如下 OMP: Error #15: Initializing libiomp5md.dll, bu…

2023年4月10日
000

合作推广

合作推广

返回顶部