《机器学习》（西瓜书）笔记（2）–模型评估与选择

2023年4月11日上午3:17 • 机器学习

第二章模型评估与选择

2.1 经验误差与过拟合

错误率（error rate）：分类错误的样本数占样本总数的比例。

精度（accuracy）：1 - 错误率
误差（error）：学习器的实际预测输出与样本的真实输出之间的差异称为误差。

训练误差（training error） / 经验误差（empirical error）：学习器在训练集上的误差。

泛化误差（generalization error）：学习器在新样本上的误差。

过拟合（overfitting）：学习器把训练样本学的太好，把训练样本自身的一些特点当做了所有潜在样本都会具有的一般性质，导致泛化性能下降，这种现象在机器学习中称为过拟合。

欠拟合（underfitting）：与过拟合相反，对训练样本的一般性质尚未学好。

最常见的导致过拟合的因素是学习能力过于强大，而欠拟合通常是由于学习能力低下造成的。

学习能力：由学习算法和数据内涵共同决定。

机器学习面临的问题通常是NP难甚至更难，而有效的学习算法必然是在多项式时间内运行完成。若可彻底避免过拟合，则通过经验误差最小化就能获得最优解，这就意味着我们构造性的证明了P=NP。因此只要相信P≠NP，过拟合就不可避免。

2.2 评估方法

测试集（testing set）

测试误差（testing error）

通常假设测试样本也是从样本真实分布中独立同分布采样而得。需注意的是，测试集应该尽可能的与训练集互斥。

当我们只有一个包含m个样例的数据集D时，有以下几种常见的做法：留出法、交叉验证法、自助法。

留出法

《机器学习》（西瓜书）笔记（2）--模型评估与选择

注：

训练 / 测试集的划分要尽可能保持数据分布的一致性，避免因数据划分过程引入额外的偏差而对结果产生影响。通常采用分层采样。
在使用留出法时一般采用若干次随机划分、重复进行实验评估后取平均值作为留出法的评估结果。
通常将数据集D的大约 2/3 ~ 4/5 用于训练，剩余样本用于测试。

交叉验证法

《机器学习》（西瓜书）笔记（2）--模型评估与选择

当 k 刚好等于数据集D的样本总数 m 时，得到了交叉验证法的一个特例：留一法（Leave-One-Out，简称LOO）。

留一法的优势：

不受随机样本划分方式的影响；
评估结果比较准确（NFL定理同样适用）。

留一法的劣势：

数据集比较大时，训练的计算开销可能难以忍受；
算法调参复杂。

自助法

《机器学习》（西瓜书）笔记（2）--模型评估与选择

优势：

自助法在数据集较小、难以有效划分训练 / 测试集时很有用；
能从初始数据集中产生多个不同的训练集，这对集成学习等方法有很大的好处。

劣势：

自助法产生的数据集改变了初始数据集的分布，会引入估计偏差。

调参与最终模型

参数调节 / 调参（parameter tuning）

验证集（validation set）：模型评估与选择中用于评估测试的数据集。===========跟测试集的关系是？？？

2.3 性能度量（performance measure）

《机器学习》（西瓜书）笔记（2）--模型评估与选择

下面介绍分类任务中的性能度量。

错误率与精度

错误率：分类错误的样本数占样本总数的比例。

精度：分类正确的样本数占样本总数的比例。

对样例集D，分类错误率定义为

《机器学习》（西瓜书）笔记（2）--模型评估与选择

精度定义为：

《机器学习》（西瓜书）笔记（2）--模型评估与选择

更一般的，对于数据分布D和概率密度函数p(*)，错误率描述为：

《机器学习》（西瓜书）笔记（2）--模型评估与选择

精度描述为：

《机器学习》（西瓜书）笔记（2）--模型评估与选择

查准率（precision）、查全率（recall）与F1

《机器学习》（西瓜书）笔记（2）--模型评估与选择

查准率和查全率是一对矛盾的度量。一般来说，查准率高时，查全率往往偏低；而查全率高时，查准率往往偏低。

《机器学习》（西瓜书）笔记（2）--模型评估与选择

F1度量

《机器学习》（西瓜书）笔记（2）--模型评估与选择

F_β度量

《机器学习》（西瓜书）笔记（2）--模型评估与选择

《机器学习》（西瓜书）笔记（2）--模型评估与选择

《机器学习》（西瓜书）笔记（2）--模型评估与选择

在n个二分类混淆矩阵上综合考察查准率和查全率时：

《机器学习》（西瓜书）笔记（2）--模型评估与选择

ROC与AUC

ROC：全称是受试者工作特征（Receiver Operating Characteristic）曲线

TPR：True Positive Rate，预测出的正例在所有实际正例中所占的比例。

《机器学习》（西瓜书）笔记（2）--模型评估与选择

FPR：False Positive Rate，预测为正例的反例在所有实际反例中所占的比例。

《机器学习》（西瓜书）笔记（2）--模型评估与选择

ROC曲线以TPR为纵轴，以FPR为横轴，过程与P-R曲线的过程类似而得到。

《机器学习》（西瓜书）笔记（2）--模型评估与选择

AUC：Area under ROC Curve

《机器学习》（西瓜书）笔记（2）--模型评估与选择

代价敏感错误率与代价曲线

非均等代价（unequal cost）：是为了权衡不同的错误所造成的不同的损失。

代价矩阵（cost matrix）：cost_ij 表示将第 i 类样本预测为第 j 类样本的代价。

《机器学习》（西瓜书）笔记（2）--模型评估与选择

代价敏感（cost-sensitive）错误率：

《机器学习》（西瓜书）笔记（2）--模型评估与选择

《机器学习》（西瓜书）笔记（2）--模型评估与选择

《机器学习》（西瓜书）笔记（2）--模型评估与选择

《机器学习》（西瓜书）笔记（2）--模型评估与选择

比较检验

假设检验

假设检验中的假设是对学习器泛化错误率分布的某种判断或猜想。

现实任务中我们并不知道学习器的泛化错误率，只能获知其测试错误率。可根据测试错误率估推出泛化错误率的分布。

《机器学习》（西瓜书）笔记（2）--模型评估与选择

交叉验证 t 检验

5*2交叉验证法

McNemar 检验

Friedman 检验与 Nemenyi 后续检验

偏差与方差

偏差-方差分解（bias-variance decomposition）是解释学习算法泛化性能的一种重要工具。

本站文章如无特殊说明，均为本站原创，如若转载，请注明出处：《机器学习》（西瓜书）笔记（2）–模型评估与选择 - Python技术站

人工智能机器学习

赞 (0)

微信扫一扫

微信扫一扫

支付宝扫一扫

支付宝扫一扫

机器学习实践之决策树算法学习

上一篇 2023年4月11日

《机器学习》（西瓜书）笔记（1）–绪论

下一篇 2023年4月11日

PyTorch

Pytorch 网络结构可视化

安装 conda install graphvizconda install tensorwatch 载入库 import sysimport torchimport tensorwatch as twimport torchvision.models 网络结构可视化 alexnet_model = torchvision.models.alexnet()t…

2023年4月6日
000
Pytorch中RNN参数解释

其实构建rnn的代码十分简单，但是实际上看了下csdn以及官方tutorial的解释都不是很详细，说的意思也不能够让人理解，让大家可能会造成一定误解，因此这里对rnn的参数做一个详细的解释： self.encoder = nn.RNN(input_size=300,hidden_size=128,dropout=0.5) 在这句代码当中： input_s…

PyTorch 2023年4月8日
000
Caffe

Caffe学习二 xavier初始化

上一篇随笔中，将默认的参数初始化”xaview”改成了”gaussian”，虽然能运行得到不错的结果。但是在加上针对性的std=sqrt(1/n_out)前，是无法收敛的。相比之下，采用sigmoid就能收敛。 ReLU不够好的地方：在学习率过高时，很多单元流经的梯度为0且不再更新就此死掉。——可以通过合理设置lr以及lr的更新方式。输出范围为[0,…

2023年4月8日
000
PyTorch

pytorch: 准备、训练和测试自己的图片数据

大部分的pytorch入门教程，都是使用torchvision里面的数据进行训练和测试。如果我们是自己的图片数据，又该怎么做呢？一、我的数据我在学习的时候，使用的是fashion-mnist。这个数据比较小，我的电脑没有GPU，还能吃得消。关于fashion-mnist数据，可以百度，也可以点此了解一下，数据就像这个样子：下载地址：https:…

2023年4月8日
000
PyTorch

陈云pytorch学习笔记_用50行代码搭建ResNet

import torch as t import torch.nn as nn import torch.nn.functional as F from torchvision import models # 残差快残差网络公式 a^[L+2] = g(a^[L]+z^[L+2]) class ResidualBlock(nn.Module):…

2023年4月8日
000
PyTorch

实践torch.fx第一篇——基于Pytorch的模型优化量化神器

第一篇——什么是torch.fx 今天聊一下比较重要的torch.fx，也趁着这次机会把之前的torch.fx笔记整理下，笔记大概拆成三份，分别对应三篇：什么是torch.fx 基于torch.fx做量化基于torch.fx量化部署到TensorRT 本文对应第一篇，主要介绍torch.fx和基本使用方法。废话不多说，直接开始吧！什么是Torch.FX…

2023年4月8日
000
Pytorch搭建卷积神经网络用于MNIST分类

import torch from torch.utils.data import DataLoader from torchvision import datasets from torchvision import transforms from torch import nn, optim from torch.nn import functional…

卷积神经网络 2023年4月7日
000
Keras

深度学习优质实践案例：用 Keras 实现人群中的口罩检测

Keras 是一个由 Python 编写的开源人工神经网络库，可以作为 Tensorflow、Microsoft-CNTK 和 Theano 的高阶应用程序接口，进行深度学习模型的设计、调试评估、应用和可视化。 Gitee 上这位优秀的开发者也是一名深度学习爱好者，为了做一次目标检测学习了 RCNN，FastRCNN，FasterRCNN 的理论，随后便诞生…

2023年4月8日
000

合作推广

合作推广

返回顶部