动手学pytorch-过拟合、欠拟合

过拟合、欠拟合及其解决方案

1. 过拟合、欠拟合的概念
 2. 权重衰减（通过l2正则化惩罚权重比较大的项)
3. 丢弃法(drop out)
4. 实验

1.过拟合、欠拟合的概念

1.1训练误差和泛化误差

前者指模型在训练数据集上表现出的误差，后者指模型在任意一个测试数据样本上表现出的误差的期望，并常常通过测试数据集上的误差来近似。

1.2验证数据集与K-fold验证

预留一部分在训练数据集和测试数据集以外的数据来进行模型选择，这部分数据被称为验证数据集，简称验证集（validation set）。在K折交叉验证中，把原始训练数据集分割成K个不重合的子数据集，然后做K次模型训练和验证。每一次，使用一个子数据集验证模型，并使用其他K-1个子数据集来训练模型。在这K次训练和验证中，每次用来验证模型的子数据集都不同。最后，对这K次训练误差和验证误差分别求平均。

1.3过拟合和欠拟合

欠拟合：模型无法得到较低的训练误差
过拟合：模型的训练误差远小于它在测试数据集上的误差

1.4导致过拟合和欠拟合的关键因素

数据集大小：影响欠拟合和过拟合的另一个重要因素是训练数据集的大小。一般来说，如果训练数据集中样本数过少，特别是比模型参数数量（按元素计）更少时，过拟合更容易发生。此外，泛化误差不会随训练数据集里样本数量增加而减小。因此，在计算资源允许的范围之内，通常希望训练数据集大一些，特别是在模型复杂度较高时，例如层数较多的深度学习模型。
模型复杂程度：

2.L2正则化

(L_2)范数正则化在模型原损失函数基础上添加(L_2)范数惩罚项，从而得到训练所需要最小化的函数。(L_2)范数惩罚项指的是模型权重参数每个元素的平方和与一个正的常数的乘积。以线性回归中的线性回归损失函数为例

[ ell(w_1, w_2, b) = frac{1}{n} sum_{i=1}^n frac{1}{2}left(x_1^{(i)} w_1 + x_2^{(i)} w_2 + b - y^{(i)}right)^2
]

其中(w_1, w_2)是权重参数，(b)是偏差参数，样本(i)的输入为(x_1^{(i)}, x_2^{(i)})，标签为(y^{(i)})，样本数为(n)。将权重参数用向量(boldsymbol{w} = [w_1, w_2])表示，带有(L_2)范数惩罚项的新损失函数为

[ell(w_1, w_2, b) + frac{lambda}{2n} |boldsymbol{w}|^2,
]

其中超参数(lambda > 0)。当权重参数均为0时，惩罚项最小。当(lambda)较大时，惩罚项在损失函数中的比重较大，这通常会使学到的权重参数的元素较接近0。当(lambda)设为0时，惩罚项完全不起作用。上式中(L_2)范数平方(|boldsymbol{w}|^2)展开后得到(w_1^2 + w_2^2)。
有了(L_2)范数惩罚项后，在小批量随机梯度下降中，我们将线性回归一节中权重(w_1)和(w_2)的迭代方式更改为

[ begin{aligned} w_1 &leftarrow left(1- frac{etalambda}{|mathcal{B}|} right)w_1 - frac{eta}{|mathcal{B}|} sum_{i in mathcal{B}}x_1^{(i)} left(x_1^{(i)} w_1 + x_2^{(i)} w_2 + b - y^{(i)}right),\ w_2 &leftarrow left(1- frac{etalambda}{|mathcal{B}|} right)w_2 - frac{eta}{|mathcal{B}|} sum_{i in mathcal{B}}x_2^{(i)} left(x_1^{(i)} w_1 + x_2^{(i)} w_2 + b - y^{(i)}right). end{aligned}
]

可见，(L_2)范数正则化令权重(w_1)和(w_2)先自乘小于1的数，再减去不含惩罚项的梯度。因此，(L_2)范数正则化又叫权重衰减。权重衰减通过惩罚绝对值较大的模型参数为需要学习的模型增加了限制，这可能对过拟合有效。

3.drop out

多层感知机中神经网络图描述了一个单隐藏层的多层感知机。其中输入个数为4，隐藏单元个数为5，且隐藏单元(h_i)（(i=1, ldots, 5)）的计算表达式为

[ h_i = phileft(x_1 w_{1i} + x_2 w_{2i} + x_3 w_{3i} + x_4 w_{4i} + b_iright)
]

这里(phi)是激活函数，(x_1, ldots, x_4)是输入，隐藏单元(i)的权重参数为(w_{1i}, ldots, w_{4i})，偏差参数为(b_i)。当对该隐藏层使用丢弃法时，该层的隐藏单元将有一定概率被丢弃掉。设丢弃概率为(p)，那么有(p)的概率(h_i)会被清零，有(1-p)的概率(h_i)会除以(1-p)做拉伸。丢弃概率是丢弃法的超参数。具体来说，设随机变量(xi_i)为0和1的概率分别为(p)和(1-p)。使用丢弃法时我们计算新的隐藏单元(h_i')

[ h_i' = frac{xi_i}{1-p} h_i
]

由于(E(xi_i) = 1-p)，因此

[ E(h_i') = frac{E(xi_i)}{1-p}h_i = h_i
]

即丢弃法不改变其输入的期望值。让我们对之前多层感知机的神经网络中的隐藏层使用丢弃法，一种可能的结果如图所示，其中(h_2)和(h_5)被清零。这时输出值的计算不再依赖(h_2)和(h_5)，在反向传播时，与这两个隐藏单元相关的权重的梯度均为0。由于在训练中隐藏层神经元的丢弃是随机的，即(h_1, ldots, h_5)都有可能被清零，输出层的计算无法过度依赖(h_1, ldots, h_5)中的任一个，从而在训练模型时起到正则化的作用，并可以用来应对过拟合。在测试模型时，我们为了拿到更加确定性的结果，一般不使用丢弃法

动手学pytorch-过拟合、欠拟合