机器学习、深度学习实战细节（batch norm、relu、dropout 等的相对顺序）

2023年4月13日下午10:25 • 深度学习

cost function，一般得到的是一个 scalar-value，标量值；
- 执行 SGD 时，是最终的 cost function 获得的 scalar-value，关于模型的参数得到的；

1. 分类和预测

评估：

准确率；速度；健壮性；
可规模性；可解释性；

2. Data Augmentation

平移、旋转/翻转、缩放、加噪声

3. 溢出

矩阵求逆，
```
W = P/(Q+1e-5*eye(d));
```

4. batch norm、relu、dropout 等的相对顺序

Ordering of batch normalization and dropout in TensorFlow?

在 Batch Normalization: Accelerating Deep Network Training by Reducing Internal Covariate Shift 一文中，作者指出，“we would like to ensure that for any parameter values, the network always produces activations with the desired distribution”（produces activations with the desired distribution，为激活层提供期望的分布）。

因此 Batch Normalization 层恰恰插入在 Conv 层或全连接层之后，而在 ReLU等激活层之前。而对于 dropout 则应当置于 activation layer 之后。

-> CONV/FC -> BatchNorm -> ReLu(or other activation) -> Dropout -> CONV/FC ->；

本站文章如无特殊说明，均为本站原创，如若转载，请注明出处：机器学习、深度学习实战细节（batch norm、relu、dropout 等的相对顺序） - Python技术站

深度学习

0 0 打赏

微信扫一扫

支付宝扫一扫

深度学习实践指南（六）—— ReLU（前向和后向过程）

上一篇 2023年4月13日

神经网络、深度学习创新点的思考

下一篇 2023年4月13日

【深度学习论文篇 01-1 】AlexNet论文翻译

前言：本文是我对照原论文逐字逐句翻译而来，英文水平有限，不影响阅读即可。翻译论文的确能很大程度加深我们对文章的理解，但太过耗时，不建议采用。我翻译的另一个目的就是想重拾英文，所以就硬着头皮啃了。本文只作翻译，总结及代码复现详见后续的姊妹篇。 Alex原论文链接：https://proceedings.neurips.cc/paper/2012/file/c3…

深度学习 2023年4月12日
000
【深度学习】BP反向传播算法Python简单实现

转载：火烫火烫的个人觉得BP反向传播是深度学习的一个基础，所以很有必要把反向传播算法好好学一下得益于一步一步弄懂反向传播的例子这篇文章，给出一个例子来说明反向传播不过是英文的，如果你感觉不好阅读的话，优秀的国人已经把它翻译出来了。一步一步弄懂反向传播的例子（中文翻译）然后我使用了那个博客的图片。这次的目的主要是对那个博客的一个补充。但是首先我觉得先…

深度学习 2023年4月11日
000
深度学习面试题08：梯度消失与梯度爆炸

　　梯度消失　　梯度爆炸　　参考资料以下图的全连接神经网络为例，来演示梯度爆炸和梯度消失：梯度消失在模型参数w都是(-1,1)之间的数的前提下，如果激活函数选择的是sigmod(x)，那么他的导函数σ’(x)的值域为(0,0.25]，即如下三项的范围都是(0,0.25] 那么w1的导数会有很多(0,0.25]范围的数累乘，就会造成w1的导数…

深度学习 2023年4月12日
000
深度学习

Deep Learning 6_深度学习UFLDL教程：Softmax Regression_Exercise（斯坦福大学深度学习教程）

练习内容：Exercise:Softmax Regression。完成MNIST手写数字数据库中手写数字的识别，即：用6万个已标注数据（即：6万张28*28的图像块（patches）），作训练数据集，然后利用其训练softmax分类器，再用1万个已标注数据（即：1万张28*28的图像块（patches））作为测试数据集，用前面训练好的softmax…

2023年4月9日
000
[转]关于深度学习，这可能是你最容易读进去的科普贴了

作者：王川，投资人，中科大少年班校友，现居加州硅谷，36 氪经授权转载自其个人微信公众号 investguru。如若转载，请注明出处：http://36kr.com/p/5043570.html 一　　2016 年一月底，人工智能的研究领域，发生了两件大事。　　先是一月二十四号，ＭIT 的教授，人工智能研究的先驱者，Marvin Minsky 去世，…

深度学习 2023年4月11日
000
深度学习笔记(二)：简单神经网络，后向传播算法及实现【转】

本文转载自：https://blog.csdn.net/u014595019/article/details/52557623 在之前的深度学习笔记(一):logistic分类中，已经描述了普通logistic回归以及如何将logistic回归用于多类分类。在这一节，我们再进一步，往其中加入隐藏层，构建出最简单的神经网络 2.1 大概描述和公式表达…

深度学习 2023年4月13日
000
深度学习

【原创深度学习与TensorFlow 动手实践系列 – 4】第四课：卷积神经网络 – 高级篇

【原创深度学习与TensorFlow 动手实践系列 – 4】第四课：卷积神经网络 – 高级篇提纲： 1. AlexNet：现代神经网络起源 2. VGG：AlexNet增强版 3. GoogleNet：多维度识别 4. ResNet：机器超越人类识别 5. DeepFace：结构化图片的特殊处理 6. U-Net：图片生成网络 7. …

2023年4月10日
000
PGL图学习之图神经网络ERNIESage、UniMP进阶模型[系列八]

通过以上两个版本的模型代码简单的讲解，可以知道他们的不同点，其实主要就是在消息传递机制的部分有所不同。ERNIESageV1版本只作用在text graph的节点上，在传递消息(Send阶段)时只考虑了邻居本身的文本信息；而ERNIESageV2版本则作用在了边上，在Send阶段同时考虑了当前节点和其邻居节点的文本信息，达到更好的交互效果。为了实现可扩展的…

深度学习 2023年4月13日
000

机器学习、深度学习实战细节（batch norm、relu、dropout 等的相对顺序）

1. 分类和预测

2. Data Augmentation

3. 溢出

4. batch norm、relu、dropout 等的相对顺序

相关文章