拿到机器学习数据后，该如何对数据进行划分？

2023年4月11日上午1:39 • 机器学习

yizhihongxing

在处理机器学习任务时，我们都需要使用数据，当然，有时候数据集可以很大，有时候数据集数量不是很理想，那么如何针对这些数据得出更加有效的模型呢？

大型数据集

拿到机器学习数据后，该如何对数据进行划分？

Idea #1： 当我们拿到数据集后，如果将所有数据进行训练的话

这样会导致模型见过所有的数据，如果再用这些数据进行测试的话，效果会非常好，但我们知道，这其实是一种过拟合现象，我们的模型在当前数据集中，永远表现很好。

Idea #2： 当我们拿到数据集后，将数据集划分成训练集（train set）和测试集（test set）的话

这样我们使用训练集训练模型，使用测试集来找到最佳超参数时，其实，这个test不能代表在全新的未见过的数据上的表现，这样会导致，我们选择的超参数，可能只是在这个测试集上表现良好。

（最佳方案！！）Idea #3： 当我们拿到数据集后，将数据集划分成训练集（train set）、验证集（validation set）和测试集（test set）的话

我们可以使用训练集来训练模型，并使用验证集来选择合适的超参数，最后使用全新的测试集来衡量模型的泛化能力。

数据集不是很充分

当我们没有大量数据时，没办法做上面那种任性的操作，我们可以尝试一种新的办法。

拿到机器学习数据后，该如何对数据进行划分？

交叉验证，这个时候就登场了，它其实和上面的思想差不多，就是我们单独把测试集先抽出来，然后把剩余的部分切分，循环当训练集和验证集，上图中黄色的就是验证集，绿色的是训练集。

本站文章如无特殊说明，均为本站原创，如若转载，请注明出处：拿到机器学习数据后，该如何对数据进行划分？ - Python技术站

人工智能机器学习

赞 (0)

微信扫一扫

微信扫一扫

支付宝扫一扫

支付宝扫一扫

吴恩达机器学习笔记20-正则化代价函数

上一篇 2023年4月11日

Andrew Ng机器学习算法入门((七):特征选择和多项式回归

下一篇 2023年4月11日

《python深度学习》笔记—5、CNN的多个卷积核为什么能提取到不同的特征

一、总结一句话总结：过滤器的权重是随机初始化的只有卷积核学习到不同的特征，才会减少成本函数随机初始化的权重可能会确保每个过滤器收敛到成本函数的不同的局部最小值。每个过滤器开始模仿其他过滤器是不可能的，因为这几乎肯定会导致成本函数的增加，梯度下降算法不会让模型朝这个方向发展。二、CNN的多个卷积核为什么能提取到不同的特征转自或参考：CNN的…

卷积神经网络 2023年4月8日
000
第六讲循环神经网络 –SimpleRNN_onehot_1pre1

1 import numpy as np 2 import tensorflow as tf 3 from tensorflow.keras.layers import Dense, SimpleRNN 4 import matplotlib.pyplot as plt 5 import os 6 7 input_word = “abcde” 8 w_to_…

循环神经网络 2023年4月7日
000
卷积神经网络

卷积神经网络CNN（convolutional）

卷积运算：原图像*卷积核=新图像，经常用来做边缘检测人造核：手动指定权重，改善效果指定核权重为变量，通过反向传播，学习卷积核的权重补白和步幅决定了卷积后的补白Padding Valid convolution：p = 0 \(n\times n * f\times f -> (n-f+1)\times (n-f+1)\) Same convolut…

2023年4月8日
000
目标检测

【目标检测】：SPP-Net深入理解（从R-CNN到SPP-Net）

一. 导论 SPP-Net是何凯明在基于R-CNN的基础上提出来的目标检测模型，使用SPP-Net可以大幅度提升目标检测的速度，检测同样一张图片当中的所有目标，SPP-Net所花费的时间仅仅是RCNN的百分之一，而且检测的准确率甚至会更高。那么SPP-Net是怎么设计的呢？我们要想理解SPP-Net，先来回顾一下RCNN当中的知识吧。下图为SPP-Net的结…

2023年4月6日
000
循环神经网络

循环神经网络常见的结构（学习笔记）

多对1例如情感分类，根据句子预测情感。文档分类，输出情感，但是下面的结构存在上下文、长时间的序列损失的缺点。一对多看图描述文字任务。找到CNN特征图的图片之间的对应关系。多对多机器翻译 Sequence to Sequence编码器和解码器，等价与 many-to-One + One-to-many ，缺点1是ht存在信息瓶颈，缺点2是在推断的时候，需…

2023年4月8日
000
Caffe

Caffe学习系列（一）Ubuntu16.04下搭建编译Caffe环境，并运行MNIST示例（仅CPU）

前言：学习深度学习是从本科毕业设计开始，如今学习了不少理论知识，利用Caffe框架要付诸实践了，记录下来学习过程，也算是心路历程。刚开始搭建Caffe环境遇到很多的问题，先放弃安装GPU相关的环境了，先在CPU下训练，尽管跑训练速度很慢，但以后再解决GPU的问题。正文： 1、安装必要依赖包： sudo apt-get install libprotob…

2023年4月8日
000
GAN生成对抗网络

深度 | 生成对抗网络初学入门：一文读懂GAN的基本原理（附资源）

生成对抗网络是现在人工智能领域的当红技术之一。近日，Sigmoidal.io 的博客发表了一篇入门级介绍文章，对 GAN 的原理进行了解释说明。另外，在该文章的最后还附带了一些能帮助初学者自己上手开发实验的资源（包含演讲、教程、代码和论文），其中部分资源机器之心也曾有过报道或解读，读者可访问对应链接查阅。你怎么教一台从未见过人脸的机器学会绘出人脸？计算机可…

2023年4月6日
000
[winograd]winograd算法在卷积中的应用

在卷积神经网络当中, 卷积运算是尤其是计算敏感的, 尤其是在端上设备中, 对于性能的要求更为苛刻。对于卷积优化的方法也有很多种，本文便针对近年来最常见的优化方法Winograd做一个简单总结。相关资料 winograd算法最早是1980年由Terry Winograd提出的，当时并没有引起太大的轰动。在CVPR’16会议上，Lavin等人[1]提出了利用w…

卷积神经网络 2023年4月6日
000

合作推广

合作推广

返回顶部