python机器学习-数据集划分

2023年4月9日下午10:22 • 机器学习

机器学习一般的数据集会划分为两个部分：

训练数据：用于训练，构建模型
测试数据：在模型检验时使用，用于评估模型是否有效

划分比例：

训练集：70% 80% 75%
测试集：30% 20% 30%

数据集划分api

sklearn.model_selection.train_test_split(arrays, *options)
- x 数据集的特征值
- y 数据集的标签值
- test_size 测试集的大小，一般为float
- random_state 随机数种子,不同的种子会造成不同的随机采样结果。相同的种子采样结果相同。
- return 测试集特征训练集特征值值，训练标签，测试标签(默认随机取)

from sklearn.datasets import load_iris
from sklearn.model_selection import train_test_split


def datasets_demo():
    """
    对鸢尾花数据集的演示
    :return: None
    """
    # 1、获取鸢尾花数据集
    iris = load_iris()
    print("鸢尾花数据集的返回值：\n", iris)
    # 返回值是一个继承自字典的Bench
    print("鸢尾花的特征值:\n", iris["data"])
    print("鸢尾花的目标值：\n", iris.target)
    print("鸢尾花特征的名字：\n", iris.feature_names)
    print("鸢尾花目标值的名字：\n", iris.target_names)
    print("鸢尾花的描述：\n", iris.DESCR)

    # 2、对鸢尾花数据集进行分割
    # 训练集的特征值x_train 测试集的特征值x_test 训练集的目标值y_train 测试集的目标值y_test
    x_train, x_test, y_train, y_test = train_test_split(iris.data, iris.target, random_state=22)
    print("x_train:\n", x_train.shape)
    # 随机数种子
    x_train1, x_test1, y_train1, y_test1 = train_test_split(iris.data, iris.target, random_state=6)
    x_train2, x_test2, y_train2, y_test2 = train_test_split(iris.data, iris.target, random_state=6)
    print("如果随机数种子不一致：\n", x_train == x_train1)
    print("如果随机数种子一致：\n", x_train1 == x_train2)

    return None

本站文章如无特殊说明，均为本站原创，如若转载，请注明出处：python机器学习-数据集划分 - Python技术站

赞 (0)

微信扫一扫

微信扫一扫

支付宝扫一扫

支付宝扫一扫

教你如何在机器学习竞赛中更胜一筹（上）

上一篇 2023年4月9日

[机器学习笔记(一)] TensorFLow安装

下一篇 2023年4月9日

强大而精致的机器学习调参方法：贝叶斯优化强大而精致的机器学习调参方法：贝叶斯优化

一、简介贝叶斯优化用于机器学习调参由J. Snoek(2012)提出，主要思想是，给定优化的目标函数(广义的函数，只需指定输入和输出即可，无需知道内部结构以及数学性质)，通过不断地添加样本点来更新目标函数的后验分布(高斯过程,直到后验分布基本贴合于真实分布。简单的说，就是考虑了上一次参数的信息**，从而更好的调整当前的参数。他与常规的网格搜索或者随机…

机器学习 2023年4月15日
000
机器学习43条军规：解密谷歌机器学习工程最佳实践（上）

摘要：本文译者张相於，首发于微信公号ResysChina（resyschina），「AI早餐汇」经授权转载。以下为注解和编译的内容：本文是对一文的翻译+解读。本文译者张相於，首发于微信公号ResysChina（resyschina），「AI早餐汇」经授权转载。以下为注解和编译的内容：本文是对<Rules of Machine Learning:…

机器学习 2023年4月13日
000
《机器学习技法》—核型逻辑回归

我们知道，soft-SVM的一般形式是：这里我们把松弛变量ξn写成下面的形式（这里其实就是松弛变量的定义，如果这个点不违反硬条件，则它的松弛变量为0，否则的话，松弛变量的值就是它到底违反了多少，即yn(w*xn + b)与1的差值）: 这样写之后，原问题的约束条件已经被包含进来了。因此原问题变为下面的无约束形式： 2 soft-SVM与逻辑回归的联系 …

机器学习 2023年4月12日
000
机器学习之Anaconda介绍

最受欢迎的Python / R数据科学发行版轻松安装1,400多个Python / R数据科学包并管理您的包，依赖项和环境 – 只需单击一下按钮即可。免费和开源。数据科学图书馆 Anaconda数据科学图书馆超过1,400个Anaconda策划和社区数据科学包使用您喜欢的IDE开发数据科学项目，包括Jupyter，JupyterLab，Spyd…

机器学习 2023年4月12日
000
机器学习–支持向量机

1 #!/usr/bin/env python 2 # -*- coding: utf-8 -*- 3 # @Time : 2017/8/1 21:58 4 # @Author : banshaohuan 5 # @File : SKLearnExample.py 6 # @Software: PyCharm 7 8 from sklearn import …

机器学习 2023年4月13日
000
机器学习笔记：Logistic Regression

　　Logistic Regression算法非常著名，据说在工程实际中用得非常多。作为菜鸟一只，我在dragonstar课上第一次耳闻，由于Yu Kai老师讲得快，当时没怎么搞懂。今天听了CS229的课，找到了牛人的笔记和程序，才算略懂一点。　　Logistic Regression是一种回归算法，它跟Linear Regression回归有一定的不同。…

机器学习 2023年4月12日
000
机器学习

机器学习第八周–决策树

在了解树模型之前，自然想到树模型和线性模型有什么区别呢？其中最重要的是，树形模型是一个一个特征进行处理，之前线性模型是所有特征给予权重相加得到一个新的值。决策树与逻辑回归的分类区别也在于此，逻辑回归是将所有特征变换为概率后，通过大于某一概率阈值的划分为一类，小于某一概率阈值的为另一类；而决策树是对每一个特征做一个划分。另外逻辑回归只能找到线性…

2023年4月10日
000
《机器学习基石》—理解机器为什么能学习（二）

上一节我们证明了，当假设空间的大小是M时，可以得到概率上界：即，只要训练数据量N足够大，那么训练集上的Ein与真实的预测错误率Eout是PAC（大概率）接近的。但是，我们上面的理论只有在假设空间大小有限时才成立，如果假设空间无限大，右边的概率上界就会变成无限大。事实上，右边的边界是一个比较弱的边界，这一节我们要找出一个更强的边界，来证明我们的机器学…

机器学习 2023年4月12日
000

合作推广

合作推广

返回顶部