(1)表示:

样本空间映射到一个合适的特征空间,一般地,我们更青睐于这样的表示是低维度的,是更加稀疏交互的,同时也希望是相互独立的。【从大量特征挑出好的特征,降维】

让机器来学习怎样表示,就是表示学习。

(2)评估:

模型在数据上表现量化形式,我们选取合适的函数来表示什么样子的模型是好的性能度量就是评估。【用来评价模型好坏的函数】

(3)优化:

前两步都完成后,最后要做的就是优化,就是对评估函数进行求解,找出最合适的解,来确定最终的模型。

2.性能度量

性能度量(performance measure)是关于真实值和预测值的关系。真实值与预测值越接近,或者说真实的分布与预测分布越接近,性能越好。

(1)回归问题的性能度量:

均方误差(mean squared error,MSE),均方根误差(RMSE),平均绝对误差(MAE),均方对数误差(MSLE),均方根对数误差(RMSLE),

绝对误差(absolute Loss),决定系数(coefficient of determination )以及Huber Loss。

(2)分类问题的性能度量:

准确率,错误率,

得到混淆矩阵,进一步得到查准率(precision)、查全率(recall)以及P-R曲线和ROC曲线。

 

3.损失函数

(1)损失函数、代价函数、目标函数

损失函数(Loss Function)

    是定义在单个样本上的,是指一个样本的误差,度量模型一次预测的好坏。

    机器学习概念区分(一)性能度量 vs 损失函数

代价函数(Cost Function)

    又叫成本函数,经验风险(empirical risk)【局部】基于训练集所有样本损失函数的平均最小化。经验风险是局部最优,是现实的可求的。

    仅仅经验风险最小化是不行的,这样容易导致过拟合,我们不仅要让经验风险最小化,还要考虑模型复杂度,让结构风险最小化。

    机器学习概念区分(一)性能度量 vs 损失函数               机器学习概念区分(一)性能度量 vs 损失函数 

目标函数(Object Function)

    是指最终需要优化的函数,就是结构风险=经验风险+正则项(惩罚项)。【按照李航《统计xx》,结构风险=目标函数(多数)】

    机器学习概念区分(一)性能度量 vs 损失函数

    正则项:定义了一个函数 机器学习概念区分(一)性能度量 vs 损失函数 ,这个函数专门用来度量模型的复杂度,在机器学习中也叫正则化(regularization)。常用的有 机器学习概念区分(一)性能度量 vs 损失函数 , 机器学习概念区分(一)性能度量 vs 损失函数 范数。

目标函数和代价函数区别(通俗

    目标函数是最大化或者最小化,而代价函数/经验风险是最小化。

(2)期望风险、经验风险、结构风险

(3)广义上的损失函数

个人理解:广义上,或者人们习惯上,人们所说的损失函数其实是“代价函数”。或者提到上述三者中的任一个都叫损失函数。

损失函数用于衡量模型拟合的程度,越小就代表拟合得越好。

(4)损失函数满足条件

损失函数必须连续

 

(5)为什么既要有损失函数,也有要性能评估呢?

损失函数(Loss function)也与性能度量类似,真实值与预测值差别越大,Loss越大,我们的优化的目标就是减小Loss。从评估的角度来说,损失函数和性能度量所起到的作用是相同的,那么我们为什么既要有损失函数,也有要性能评估呢?

事实上,常见的均方误差既可以被当作性能度量,同时也是回归问题的损失函数。

但在更多的问题中,我们会发现,我们往往会为了减小模型的错误率并不直接优化错误率而是会优化另一个函数

比如在logistic回归中,我们会优化对数似然,在SVM中,我们会优化hinge loss,在adaboost中会优化指数损失

(6)损失函数:学习vs评估

【与(5)应该是同一个问题,评估中的损失函数就是(5)的性能评估,学习中的损失函数就是(5)的损失函数】

统计学习的目的,模型对未知数据都能有很好的预测能力。
当损失函数给定时,基于损失函数的模型的训练误差(training error)和模型的测试误差(test error)就自然成为学习方法评估的标准。
统计学习中采用的损失函数未必是评估时使用的损失函数。两者一致是比较理想的。

 

 

 

参考:

https://baijiahao.baidu.com/s?id=1611678624768980723&wfr=spider&for=pc

https://blog.csdn.net/Vici__/article/details/101927918?utm_medium=distribute.pc_relevant.none-task-blog-baidulandingword-6&spm=1001.2101.3001.4242