详解常用的机器学习专业术语!

yizhihongxing

机器学习是个复杂性、专业性很强的技术领域,它大量应用到了概率论、统计学、逼近论、算法复杂度等多门学科的知识,也因此会出现很多专业性很强的词汇。

在我们探索机器学习的初级阶段,理解这些专业术语是学习过程中第一件重要任务,所以本章将详细介绍机器学习中常用的术语以及它的基本概念,为我们在后续的知识学习打下坚实的基础。

在此之前,建议大家收藏本章内容,以便在后续学习阶段复习巩固这些专业名词的含义。

机器学习术语

模型

“模型”这一名词是机器学习中最重要的核心概念。因为机器学习最终的目标就是训练出一个最优质的“模型”。可以说整个机器学习的过程都是围绕着“训练模型”这一主题展开的。
以下是机器学习整个模型训练的流程图:

详解常用的机器学习专业术语!

当模型训练完成后,你可以向它输入数据,它将帮你输出预测结果。预测结果越准确,说明这个模型越优质。

数据集

数据集就是一大堆数据集合,你可以把它理解成数据库层面的一个个数据表,它为训练模型提供基础数据。

根据机器学习需要,数据集分为了“训练集”和“测试集”,训练集提供机器学习训练阶段的基础数据,测试集提供机器学习预测阶段的基础数据。

样本、特征

“样本”指的是数据集中的具体数据。一条数据就是一个样本,“特征”分为“特征名”与“特征值”,是这个样本中数据的具体描述。

我们用以下用户信息数据为例。每一行都是一个样本,每一列指向这个样本的一个特征。

姓名 身高 年龄
张三 180 55
李四 175 23

由此可知,数据集的构成是“一行一样本,一列一特征”。

数学术语

矩阵

“矩阵”是一个常用的数学术语,它的作用很简单,就是将数据集以矩阵形式表现出来,你可以把它理解成电子表格,数据集的二维矩阵表现形式如下:

样本序号 特征A 特征B 特征C 特征D 结果
1 a1 a2 a3 a4 b2
2 a1 a2 a3 a4 b2
3 a1 a2 a3 a4 b2
4 a1 a2 a3 a4 b2

向量

“向量”是线性代数中的一个概念,指具有大小和方向的量。

而在机器学习中,“向量”本质上是一维数组,它用来存储某个具体实例的数据。

比如,二维空间具有x和y两个维度,那么位于其中的某个点就可以用向量存储为[x1,y1]。

同样,三维空间中的一个点具有x、y、z3个维度。二维的点可以被存储为长度为2的向量,相应地,三维的点也可以被存储为长度为3的向量,如[x1,y1,z1]。

在机器学习中,我们主要关注向量的运算。比如行列式、矩阵运算等运算规则。

假设函数&损失函数&成本函数

假设函数可以理解成一个预测方法,可用y=hθ(x)公式表达。hθ(x)函数内部使用了我们的训练模型,其中x表示输入数据,y表示输出的预测结果。

损失函数是用来判断假设函数的优劣性的。可以用L(y)表示。其中的参数y是假设函数的预测结果y,最终返回一个度量值,这个值越大表示预测结果与实际值偏差越大。

成本函数,用J表示,它用于评估一个模型的性能。

其他的还有:

  • 监督学习(Supervised Learning):学习时提供有标记的数据,即数据和标签已知的数据集,以预测新数据的标签。常见的监督学习算法有线性回归、逻辑回归、决策树等。

  • 无监督学习(Unsupervised Learning):学习时提供没有标记的数据,即数据没有标签的数据集,以发现数据的内在规律和结构。常见的无监督学习算法有聚类、降维等。

  • 半监督学习(Semi-supervised Learning):学习时既有带标记的数据,也有没有标记的数据,以提高模型性能和泛化能力。半监督学习是监督学习和无监督学习的结合,常见的半监督学习算法有标签传播算法等。

  • 强化学习(Reinforcement Learning):学习时通过观察环境和执行行动来学习如何做出最佳决策,以最大化累计奖励。强化学习是一种在动态环境中通过与环境的交互来学习的机器学习方法,常见的强化学习算法有Q-learning、深度强化学习等。

  • 泛化(Generalization):模型在未见过的数据上的性能表现能力,即模型的泛化能力。

  • 过拟合(Overfitting):模型过于复杂,过度拟合训练数据,在测试数据上表现不佳的现象。

  • 欠拟合(Underfitting):模型过于简单,不能很好地拟合训练数据,在训练数据和测试数据上都表现不佳的现象。

  • 特征(Feature):表示数据的属性,也称为属性、维度、变量等。特征的质量直接影响模型的性能。

  • 样本(Sample):训练集中的单个数据点,也称为实例、数据点、观测等。

  • 模型(Model):机器学习中使用的数学函数或算法,以将输入数据映射到输出数据。

  • 损失函数(Loss Function):衡量模型预测值与真实值之间差异的函数,常用的损失函数有均方误差(MSE)、交叉熵等。

  • 正则化:正则化是一种用于防止过拟合的技术,在损失函数中增加一个正则化项,以限制模型参数的复杂度。

本站文章如无特殊说明,均为本站原创,如若转载,请注明出处:详解常用的机器学习专业术语! - Python技术站

(0)
上一篇 2022年11月8日 下午10:59
下一篇 2023年1月11日 下午8:11

相关文章

  • Keras学习笔记一:修改数据读入方式为本地图片读入

    第一种方法: Keras官方给的图片去噪示例要自动下载mnist数据集并处理,不能修改和加入自己的数据集。 from keras.datasets import mnist (x_train, _), (x_test, _) = mnist.load_data() x_train = x_train.astype(‘float32’) / 255. x_te…

    2023年4月8日
    00
  • opencv 调用 pytorch训练的resnet模型

    使用OpenCV的DNN模块调用pytorch训练的分类模型,这里记录一下中间的流程,主要分为模型训练,模型转换和OpenCV调用三步。 一、训练二分类模型 准备二分类数据,直接使用torchvision.models中的resnet18网络,主要编写的地方是自定义数据类中的__getitem__,和网络最后一层。 __getitem__ 将同类数据放在不同…

    PyTorch 2023年4月8日
    00
  • 机器学习笔记5:决策树

    目录 决策树公式 1.信息熵 2.条件熵 3.信息增益 4. 信息熵举例 5. 信息增益举例 决策树举例 表格 预设 手动计算 决策树特征的重要性 随机森林 集成学习 随机性体现在两点: 有两个优势: 决策树公式 1.信息熵 \[H(X)=-\sum_{i=1}^{n}P(X=i)log_{2}P(X=i) \] 2.条件熵 \[H(X|Y)=-\sum_{…

    机器学习 2023年4月13日
    00
  • win10子系统 (linux for windows)打造python, pytorch开发环境

    一、windows设置 0.启用windows子系统   控制面板–程序–启用或关闭windows功能–勾选适用于linux的Windows子系统   确定后会重启电脑   1.下载Ubuntu   在Microsoft store下载Ubuntu(ubuntu18默认python3是python3.6)   2.然后配置一下root密码,    su…

    2023年4月8日
    00
  • 转:25个Java机器学习工具和库

    转自:http://www.cnblogs.com/data2value/p/5419864.html 本列表总结了25个Java机器学习工具&库: 1. Weka集成了数据挖掘工作的机器学习算法。这些算法可以直接应用于一个数据集上或者你可以自己编写代码来调用。Weka包括一系列的工具,如数据预处理、分类、回归、聚类、关联规则以及可视化。 2.Mas…

    机器学习 2023年4月13日
    00
  • 初窥门径__生成对抗网络(GAN)(一)

    简介 生成对抗网络GAN,是当今的一大热门研究方向。在2014年,被Goodfellow大神提出来,当时的G神还只是蒙特利尔大学的博士生而已。 GAN之父的主页:http://www.iangoodfellow.com/ GAN的论文首次出现在NIPS2014上,原论文地址如下:https://arxiv.org/pdf/1406.2661.pdf 入坑GA…

    2023年4月6日
    00
  • 深度学习之CNN(卷积神经网络)、RNN(循环神经网络)、DNN(深度神经网络)概念区分理解

    背景 我们知道,目前,深度学习十分热门,深度学习在搜索技术,数据挖掘,机器学习,机器翻译,自然语言处理,多媒体学习,语音,推荐和个性化技术,以及其他相关领域都取得了很多成果。深度学习使机器模仿视听和思考等人类的活动,解决了很多复杂的模式识别难题,使得人工智能相关技术取得了很大进步。 从广义上来说,NN(或是更美的DNN)可以认为包含了CNN、RNN这些具体的…

    2023年4月6日
    00
  • 对pytorch中Tensor的剖析

    不是python层面Tensor的剖析,是C层面的剖析。   看pytorch下lib库中的TH好一阵子了,TH也是torch7下面的一个重要的库。 可以在torch的github上看到相关文档。看了半天才发现pytorch借鉴了很多torch7的东西。 pytorch大量借鉴了torch7下面lua写的东西并且做了更好的设计和优化。 https://git…

    PyTorch 2023年4月8日
    00

发表回复

您的电子邮箱地址不会被公开。 必填项已用*标注

合作推广
合作推广
分享本页
返回顶部