使用模型时尽量使用简单的模型。从简单的模型开始做起。

 

2 避免抽样偏差

所谓抽样偏差,是指训练数据集和测试数据集不是由同一个分布产生的。

比如验证集是从训练集中随机取一部分得到的,但是测试集却是时间轴靠后的数据,这样即使在验证集上做的很好,测试的时候却可能没那么好。

VC理论中,一个前提就是训练集和测试集要来源于同一个分布。因此抽样偏差将导致VC理论失效:

《机器学习基石》---三个有用的机器学习原则

因此我们实际中要尽量使我们的训练集与测试集的分布接近。

 

3 避免数据窥探