1 为什么随机梯度下降法能work?
L0范数:||x||0为x向量各个非零元素的个数
L1范数: ||x||1 为x向量各个元素绝对值之和。
L2范数: ||x||2为x向量各个元素平方和的1/2次方,L2范数又称Euclidean范数或者Frobenius范数
(2)
L0正则的特点是:防止过拟合,并给出稀疏结果用于特征选择,但由于加L0后问题很难求解,所以一般用L1来做稀疏。
L1正则的特点是:防止过拟合,给出稀疏结果,常用于特征选择。
L2正则的特点是防止过拟合。
(3)
L0能得到稀释结果比较好理解,那么为什么L1也能得到稀疏结果呢?
首先,加了正则之后的优化问题可以如下等价:
然后来看看W是二维的情况下:
可以发现,L2所规定的约束范围与等高线的交点通常不在坐标轴上,而L1由于范围是一个棱形,等高线与其交点刚好落在坐标轴上,对应于w1为0。当W是一个更高维的情况也是类似,这就解释了为什么L1能给出一个稀疏的结果,而L2不能。
如果有几个变量相关性比较大,它会随机选出其 中之一, 而不考虑其他的变量。
本站文章如无特殊说明,均为本站原创,如若转载,请注明出处:机器学习tips - Python技术站