[机器学习]批归一化和层归一化

2023年4月11日上午2:13 • 机器学习

批归一化

内部协变量偏移
内部协变量偏移ICS指的是深度神经网络在训练时，随着参数的不断更新，中间隐藏层的输入分布发生较大差异，导致网络需要不断的适应新的数据分布，进而增加了学习难度。[传统解决方案：较小的学习率、合适的初始化参数]
梯度饱和
sigmoid激活函数和tanh激活函数在输入值过大或者过小的情况下，会出现梯度值非常接近于0的情况，使得网络的收敛速度减慢。[传统解决方案：使用不存在梯度饱和区域的激活函数]。BN可以有效缓解梯度饱和的情况，它的策略是将输入值归一化到梯度较大的区域，即

\[z=g(BN(Wx+b))
\]

BN训练过程
BN基于小批量梯度下降，具体过程为：
计算小批数据的梯度均值和方差

\[\mu_B = \frac{\Sigma_{i=1}^m x_i}{m}
\]

\[\sigma^2_B = \frac{\Sigma_{i=1}^{m}(x_i-\mu_B)^2}{m}
\]
进行归一化

\[x_i = \frac{x_i-\mu_B}{\sqrt{\sigma^2_B+\epsilon}}$$ （防止分母为0）
\]

\[y_i = \gamma x_i+\beta = BN_{\gamma,\beta}(x_i)
\]
BN测试过程
训练过程的输入是小批量样本，但测试过程输入是单个样本。
测试过程中使用的均值和方差是训练过程中得到的均值及方差的平均，即

\[\mu_{test} = E(\mu_B)
\]

\[\sigma_{test}^2 = \frac{m-1}{m}E(\sigma_B^2)
\]

但是这种方式过于耗时，在keras的实现中使用的是滑动平均的思想。
BN的优缺点
- 优点
  1. 保证模型容量
  2. 适应激活函数（Sigmoid函数在输入接近于0的位置趋于线性，非线性表达能力会下降，可以通过\(\gamma\)及\(\beta\)进行调节；RELU函数会使一半数据无法使用，通过\(\beta\)可以调整参与的比例，防止Dead-RELU的问题）
- 缺点
  1. 当受限于硬件条件/在线学习，即Batch Size很小的时候，应谨慎使用BN；
  2. 当使用RNN等动态网络的时候，应谨慎使用BN；
  3. 当训练数据集和测试数据集的方差较大时，应谨慎使用BN。

层归一化

BN在动态网络和Batch Size较小的时候，效果不好，此时可以使用Layer Normalization。
LN训练过程
1. 计算网络层的均值与方差
\[\mu^{(l)} = \frac{\Sigma_{i=1}^{n^{(l)}}x_i^{(l)}}{n^{(l)}}
\]

\[\sigma^{(l)^2} = \frac{\Sigma_{i=1}^{n^{(l)}}(x_i^{(l)}-\mu^{(l)})^2}{n^{(l)}}
\]
1. 进行归一化
\[x_i^{(l)} = \frac{x_i^{(l)}-\mu^{(l)}}{\sqrt{\sigma^{(l)^2}+\epsilon}}
\]
1. 设置可训练的缩放及偏移
\[y_i^{(l)} = \gamma x_i^{(l)}+\beta
\]
LN的优缺点

优点
1. 适用于动态网络和Batch Size较小的情况
缺点
1. 用于CNN时会破坏卷积学习到的特征，致使模型无法收敛
2. 当BN与LN都可以使用的场景，BN的效果一般优于LN的效果，因为基于不同数据，同一特征归一化得到的数据更不容易损失信息。

本站文章如无特殊说明，均为本站原创，如若转载，请注明出处：[机器学习]批归一化和层归一化 - Python技术站

人工智能机器学习

赞 (0)

微信扫一扫

微信扫一扫

支付宝扫一扫

支付宝扫一扫

python机器学习工具包

上一篇 2023年4月11日

机器学习训练模型的一般错误

下一篇 2023年4月11日

机器学习11关联规则

理解置信度、支持度的定义以及最小置信度和最小支持度。这几个概念要搞明白。我们要做的事情就是在数据集中找出所有支持度大于最小支持度，置信度大于最小置信度的关联规则。关联规则的挖掘所面临的问题就是数据量大，则如何提高算法的效率就是我们主要要解决的问题。另外一个概念就是频繁项集，支持度大于最小支持度的数据项集就是频繁项集。由于置信度通过支持度就可以求出，…

机器学习 2023年4月13日
000
用TensorFlow搭建网络训练、验证并测试

原文连接 https://blog.csdn.net/yutingzhaomeng/article/details/81708261 本文总结tensorflow使用的相关方法，包括： 0、定义网络输入 1、如何利用tensorflow在已有网络入resnet基础上搭建自己的网络结构 2、如何添加自己的网络层 3、如何导入已有模块入resnet全连接层之前…

tensorflow 2023年4月7日
000
Keras 中的 Adam 优化器（Optimizer）算法+源码研究

https://mp.weixin.qq.com/s/3WDcMrNNnFSQpOg8ZHA2cw

Keras 2023年4月8日
000
用Cmake安装Caffe，以及Caffe单个文件编译

Cmake 安装 Caffe 首先修改Cmake里面的参数(GPU, CPU,MatLab,Python等); 修改 cmake/Dependencies.cmake 中的配置(BLAS之类的); Cmake：cd caffe && mkdir build && cd buildcmake .. -DBUILD_SHARED_…

Caffe 2023年4月8日
000
机器学习的12条核心知识

机器学习算法可以通过学习就可以弄清楚如何去执行一些重要的任务。在手动编程不可行的情况下，这种方法通常既可行又经济有效。随着可获取的数据在逐步增多，越来越多更加复杂的问题可以用机器学习来解决。事实上，机器学习已经被广泛的运用到计算机以及一些其他领域。然而，开发出成功的机器学习应用需要大量的“black art”，这些内容是很难在教科书中找到的。我最近读了华盛…

机器学习 2023年4月10日
000
循环神经网络

TensorFlow从入门到理解（四）：你的第一个循环神经网络RNN（分类例子）

运行代码： import tensorflow as tf from tensorflow.examples.tutorials.mnist import input_data # set random seed for comparing the two result calculations tf.set_random_seed(1) # this is…

2023年4月5日
000
windows上安装tensorflow时报错，“DLL load failed: 找不到指定的模块”的解决方式

最近打算开始研究一下机器学习，今天在windows上装tensorflow花了点功夫，其实前面的步骤不难，只要依次装好python3.5，numpy，tensorflow就行了，有一点要注意的是目前只有python3.5能装tensorflow，最新版的python3.6都不行。装好tensorflow后，我建议大家不要直接用测试用例进行测试（如果没装好的…

tensorflow 2023年4月8日
000
Caffe

Windows下用Caffe跑自己的数据（遥感影像）

Caffe对于像我这样的初学者来说是一款非常容易上手的深度学习框架。关于用Caffe跑自己的数据这样的博客已经非常多，感谢前辈们为我们提供的这么好的学习资源。这里我主要结合我所在的行业，说下如何对跑通具有多通道多格式的遥感数据。 2 数据准备 Caffe封装的非常好，要想将我们的数据运用于Caffe上，我们唯一要做的工作就是准备好Caffe支持的数据输入格式…

2023年4月7日
000

合作推广

合作推广

返回顶部