一、总结
一句话总结:
1)、好的开始是成功的一半,为了让你的模型跑赢在起跑线 ,请慎重对待参数初始化。
2)、tf的初始化器包括:tf.initializers.he_normal()、tf.initializers.truncated_normal()、tf.contrib.layers.xavier_initializer() 这三种。
1、全零初始化 (Zero Initialization)?
将网络中 所有参数 初始化为 0 。如果所有的参数都是0,那么所有神经元的输出都将是相同的,那在back propagation的时候,gradient相同,weight update也相同。同一层内所有神经元的行为也是相同的。这显然不可接受。
2、随机初始化 (Random Initialization)?
a)、将参数值(通过高斯分布或均匀分布)随机初始化为 接近0的 一个很小的随机数(有正有负),从而使对称失效。
b)、W = tf.Variable(np.random.randn(node_in, node_out)) * 0.001
二、深度学习: 参数初始化
转自或参考:深度学习: 参数初始化
https://blog.csdn.net/JNingWei/article/details/78835390
Introduction
好的开始是成功的一半。
为了让你的模型跑赢在起跑线 ε=ε=ε=( ̄▽ ̄) ,请慎重对待参数初始化。
Note:
- tf的初始化器包括:tf.initializers.he_normal()、tf.initializers.truncated_normal()、tf.contrib.layers.xavier_initializer() 这三种。
- 建议采用默认配置。一般不会在这边想trick,没啥明显增益。
API
TensorFlow中自带关于参数初始化的API,具体使用见 tensorflow: variable初始化。
全零初始化 (Zero Initialization)
将网络中 所有参数 初始化为 0 。
如果所有的参数都是0,那么所有神经元的输出都将是相同的,那在back propagation的时候,gradient相同,weight update也相同。同一层内所有神经元的行为也是相同的。
这显然不可接受。
随机初始化 (Random Initialization)
将参数值(通过高斯分布或均匀分布)随机初始化为 接近0的 一个很小的随机数(有正有负),从而使对称失效。
W = tf.Variable(np.random.randn(node_in, node_out)) * 0.001
Note:
-
node_in
、node_out
表示输入神经元个数
、输出神经元个数
; - 其中,
np.random.randn(node_in, node_out)
输出 服从标准正态分布的node_in × node_out
矩阵; - 控制因子:
0.001
,保证参数期望接近0; - 一旦随机分布选择不当,就会导致网络优化陷入困境。
Xavier初始化 (Xavier Initialization)
W = ( tf.Variable(np.random.randn(node_in, node_out)) / np.sqrt(node_in) ) * 0.001
Note:
- 加上了 方差规范化:
/ np.sqrt(node_in)
,维持了 输入、输出数据分布方差的一致性,从而更快地收敛。
He初始化 (He Initialization)
W = ( tf.Variable(np.random.randn(node_in, node_out)) / np.sqrt(node_in/2) ) * 0.001
Note:
- 考虑到 非线性映射 (relu) 函数 的影响, 将 方差规范化 的 分母 修改为
np.sqrt(node_in/2)
,能让Relu网络更快地收敛。
迁移学习初始化 (Pre-train Initialization)
将 预训练模型的参数 作为新任务上的初始化参数。
数据敏感初始化
根据自身任务数据集而特别定制的参数初始化方法。
本站文章如无特殊说明,均为本站原创,如若转载,请注明出处:深度学习: 参数初始化 - Python技术站