正则化方法有如下几种:

深度学习中的正则化

 其中L2、L1参数正则化介绍与关系如下

1、L2 参数正则化

直观解释如下:

深度学习中的正则化

深度学习中的正则化

深度学习中的正则化

2、L1 参数正则化

深度学习中的正则化

深度学习中的正则化

深度学习中的正则化

 

二、获取更多数据(扩样本)

        避免过拟合的基本方法之一是从数据源获得更多数据,当训练数据有限时,可以通过数据增强(data augmentation)变换原有的数据生成新的数据来扩大训练集。即使拥有大量数据,进行数据增强也是有必要的,因为可以防止神经网络学习到不相干的模式,从根本上提升整体性能。还要注意在使用增强技术的同时,必须确保不增加无关(无意义)的数据。数据增强的主要方法,请移步:https://www.cnblogs.com/CJT-blog/p/10423213.html

 

三、噪声鲁棒性

将噪声加入到输入。在一般情况下,注入噪声远比简单地收缩参数强大,特别是噪声被添加到隐藏单元时会更加强大(如Dropout)。对于某些模型而言,向输入添加方差极小的噪声等价于对权重施加范数惩罚。

将噪声加入到权重。这项技术主要用于循环神经网络。权重上的噪声相当于鼓励参数进入权重小扰动对输出相对影响较小的参数空间区域。或者说,推动模型进入对权重小的变化相对不敏感的区域,找到的点不只是极小点,还是由平坦区域包围的极小点。

 

四、BN层

请移步:https://www.cnblogs.com/CJT-blog/p/10424058.html

 

五、限制训练时间、次数,及早停止(可以看作正则化方法一种)

数据集一般分为训练集、验证集和测试集。训练过程中,每隔一定step就会在验证集上测试一次,训练集和测试集上的Loss变化趋势如下图所示(图片来自Deep Learning)。 
深度学习中的正则化

从上图可以看出,训练到一定步数后,训练集上的损失还在下降, 但验证集上的损失已经不变(甚至增大)。这时,模型就有过拟合的风险,应提前终止模型训练。

 

六、参数绑定和参数共享
参数范数惩罚或约束是相对于固定区域或点,如 L2 正则化是对参数偏离0 固定值进行惩罚。但有时我们需要对模型参数之间的相关型进行惩罚,使模型参数尽量接近或者相等。

卷积神经网络
参数共享:强迫模型某些参数相等
主要应用:卷积神经网络(CNN)
优点:显著降低了CNN模型的参数数量(CNN模型参数数量经常是千万量级以上),减少模型所占用的内存,并且显著提高了网络大小而不需要相应的增加训练数据。

 

七、稀疏表示
稀疏表示也是卷积神经网络经常用到的正则化方法。 L1 正则化会诱导稀疏的参数,使得许多参数为0;而稀疏表示是惩罚神经网络的激活单元,稀疏化激活单元。换言之,稀疏表示是使得每个神经元的输入单元变得稀疏,很多输入是0。 

 

八、多种模型结合

其实bagging的方法是可以起到正则化的作用,因为正则化就是要减少泛化误差,而bagging的方法可以组合多个模型起到减少泛化误差的作用. 
深度学习中同样可以使用此方法,但是其会增加计算和存储的成本.

 

九、Dropout策略

Dropout是一种非常有效的防止模型过拟合的技术,可以看作正则化方法一种,参考论文《ImageNet Classification with Deep Convolutional》。其基本原理是,在深度神经网络训练过程中,按照一定的概率随机丢弃(dropout)一些神经元的激活,提高模型的泛化能力,使模型更为鲁棒。下图给出Dropout的示意图:

深度学习中的正则化

Dropout在模型训练中非常有效,尤其是当数据量大时,效果会很好。但Dropout为什么会起作用呢?

  • 在每次训练过程中,Dropout强迫一个神经元和随机挑选出来的其他神经元共同工作,消弱减除了神经元节点之间的联合适应性,可以阻止某些特征的协同作用,使得模型不会太依赖某些局部特征,从而增强模型的鲁棒性。
  • 模型组合(ensemble):每次做完Dropout,相当于从整个网络中得到一个子网络。通过多个网络的组合,能够提高模型的泛化能力。而且,这些子网络权值共享,具有相同的网络层数,能够大大减小计算量(与直接把n个结构完全不同的网络组合相比)。需要注意的是,使用dropout后会使训练时间加长(收敛速度变慢),但是对测试阶段没有影响。
  • 使用dropout进行训练时,相当于做了data augmentation,因为总可以找到一个样本,使得在原始网络上也能达到dropout后的效果。同时,使用dropout后,相当于得到了更多的局部簇,同等数据下,簇变多了,使得区分性变大,同时稀疏性也变大。

 

十、半监督学习、多任务学习、对抗学习

 

 参考文献:

https://blog.csdn.net/u011239443/article/details/78152022

https://blog.csdn.net/red_stone1/article/details/80755144