过拟合就是Ein很小,而Eout很大的情况。产生过拟合的三个原因是,使用了过大的VC维,噪声,数据量太小:

《机器学习基石》---过拟合风险

 

2 如何解决过拟合

(1)从简单的model开始做;

(2)数据清理/裁剪:

(3)收集更多的数据;

(4)数据提示;

(5)正则化(后面介绍);

(6)验证(后面介绍)。

 

数据清理/裁剪:数据清理指修正标签,数据裁剪是指直接删除标签错误的数据。

数据提示:相当于自己构造一些新的样本。例如手写数字,把原来的图片稍微旋转和平移得到新的样本。