详解常用的机器学习专业术语!

机器学习是个复杂性、专业性很强的技术领域,它大量应用到了概率论、统计学、逼近论、算法复杂度等多门学科的知识,也因此会出现很多专业性很强的词汇。

在我们探索机器学习的初级阶段,理解这些专业术语是学习过程中第一件重要任务,所以本章将详细介绍机器学习中常用的术语以及它的基本概念,为我们在后续的知识学习打下坚实的基础。

在此之前,建议大家收藏本章内容,以便在后续学习阶段复习巩固这些专业名词的含义。

机器学习术语

模型

“模型”这一名词是机器学习中最重要的核心概念。因为机器学习最终的目标就是训练出一个最优质的“模型”。可以说整个机器学习的过程都是围绕着“训练模型”这一主题展开的。
以下是机器学习整个模型训练的流程图:

详解常用的机器学习专业术语!

当模型训练完成后,你可以向它输入数据,它将帮你输出预测结果。预测结果越准确,说明这个模型越优质。

数据集

数据集就是一大堆数据集合,你可以把它理解成数据库层面的一个个数据表,它为训练模型提供基础数据。

根据机器学习需要,数据集分为了“训练集”和“测试集”,训练集提供机器学习训练阶段的基础数据,测试集提供机器学习预测阶段的基础数据。

样本、特征

“样本”指的是数据集中的具体数据。一条数据就是一个样本,“特征”分为“特征名”与“特征值”,是这个样本中数据的具体描述。

我们用以下用户信息数据为例。每一行都是一个样本,每一列指向这个样本的一个特征。

姓名 身高 年龄
张三 180 55
李四 175 23

由此可知,数据集的构成是“一行一样本,一列一特征”。

数学术语

矩阵

“矩阵”是一个常用的数学术语,它的作用很简单,就是将数据集以矩阵形式表现出来,你可以把它理解成电子表格,数据集的二维矩阵表现形式如下:

样本序号 特征A 特征B 特征C 特征D 结果
1 a1 a2 a3 a4 b2
2 a1 a2 a3 a4 b2
3 a1 a2 a3 a4 b2
4 a1 a2 a3 a4 b2

向量

“向量”是线性代数中的一个概念,指具有大小和方向的量。

而在机器学习中,“向量”本质上是一维数组,它用来存储某个具体实例的数据。

比如,二维空间具有x和y两个维度,那么位于其中的某个点就可以用向量存储为[x1,y1]。

同样,三维空间中的一个点具有x、y、z3个维度。二维的点可以被存储为长度为2的向量,相应地,三维的点也可以被存储为长度为3的向量,如[x1,y1,z1]。

在机器学习中,我们主要关注向量的运算。比如行列式、矩阵运算等运算规则。

假设函数&损失函数&成本函数

假设函数可以理解成一个预测方法,可用y=hθ(x)公式表达。hθ(x)函数内部使用了我们的训练模型,其中x表示输入数据,y表示输出的预测结果。

损失函数是用来判断假设函数的优劣性的。可以用L(y)表示。其中的参数y是假设函数的预测结果y,最终返回一个度量值,这个值越大表示预测结果与实际值偏差越大。

成本函数,用J表示,它用于评估一个模型的性能。

其他的还有:

  • 监督学习(Supervised Learning):学习时提供有标记的数据,即数据和标签已知的数据集,以预测新数据的标签。常见的监督学习算法有线性回归、逻辑回归、决策树等。

  • 无监督学习(Unsupervised Learning):学习时提供没有标记的数据,即数据没有标签的数据集,以发现数据的内在规律和结构。常见的无监督学习算法有聚类、降维等。

  • 半监督学习(Semi-supervised Learning):学习时既有带标记的数据,也有没有标记的数据,以提高模型性能和泛化能力。半监督学习是监督学习和无监督学习的结合,常见的半监督学习算法有标签传播算法等。

  • 强化学习(Reinforcement Learning):学习时通过观察环境和执行行动来学习如何做出最佳决策,以最大化累计奖励。强化学习是一种在动态环境中通过与环境的交互来学习的机器学习方法,常见的强化学习算法有Q-learning、深度强化学习等。

  • 泛化(Generalization):模型在未见过的数据上的性能表现能力,即模型的泛化能力。

  • 过拟合(Overfitting):模型过于复杂,过度拟合训练数据,在测试数据上表现不佳的现象。

  • 欠拟合(Underfitting):模型过于简单,不能很好地拟合训练数据,在训练数据和测试数据上都表现不佳的现象。

  • 特征(Feature):表示数据的属性,也称为属性、维度、变量等。特征的质量直接影响模型的性能。

  • 样本(Sample):训练集中的单个数据点,也称为实例、数据点、观测等。

  • 模型(Model):机器学习中使用的数学函数或算法,以将输入数据映射到输出数据。

  • 损失函数(Loss Function):衡量模型预测值与真实值之间差异的函数,常用的损失函数有均方误差(MSE)、交叉熵等。

  • 正则化:正则化是一种用于防止过拟合的技术,在损失函数中增加一个正则化项,以限制模型参数的复杂度。

本站文章如无特殊说明,均为本站原创,如若转载,请注明出处:详解常用的机器学习专业术语! - Python技术站

(0)
上一篇 2022年11月8日 下午10:59
下一篇 2023年1月11日 下午8:11

相关文章

  • TensorFlow-Gpu环境搭建——Win10+ Python+Anaconda+cuda

    参考:http://blog.csdn.net/sb19931201/article/details/53648615 https://segmentfault.com/a/1190000009803319   python版本tensorflow分为Cpu版本和Gpu版本,Nvidia的Gpu非常适合机器学校的训练 python和tensorflow的安装…

    tensorflow 2023年4月8日
    00
  • 使用pytorch测试单张图片(test single image with pytorch)

    以下代码实现使用pytorch测试一张图片 引用文章: https://www.learnopencv.com/pytorch-for-beginners-image-classification-using-pre-trained-models/ from __future__ import print_function, division from PI…

    PyTorch 2023年4月7日
    00
  • 目标检测论文阅读:YOLOv1-YOLOv3(二)

    YOLOv2也已经更新,为了阅读方便,直接更新在上周的博客里了,有兴趣的不妨前去观摩,这里主要介绍下YOLOv3,也是目前YOLO最新的版本。 YOLOv3 Introduction和Conclusion有很多吐槽无力的卖萌,看论文的话直接跳过就好了……总体来说,YOLOv3并没有像YOLOv1到v2那样取得performance和speed的全方位进步,主…

    2023年4月8日
    00
  • GAN(生成对抗网络)的最新应用状况

    今天我们来聊一个轻松一些的话题——GAN 的应用。 在此之前呢,先推荐大家去读一下一篇新的文章 LS-GAN(Loss-sensitive GAN)[1]。 这个文章比 WGAN 出现的时间要早几天,它在真实分布满足 Lipschitz 条件的假设下,提出了 LS-GAN,并证明了它的纳什均衡解存在。它也能解决 generator 梯度消失的问题,实验发现不…

    2023年4月6日
    00
  • Caffe使用新版本CUDA和CuDNN

    因为一些原因还是需要使用别人基于Caffe的代码,但是代码比较老,默认不支持高版本的cuda或者cudnn 怎么办呢?基本上就是把最新官方Caffe-BVLC的几个关键文件拿过来替换即可。 脚本如下: ######################################################################### # Fil…

    Caffe 2023年4月7日
    00
  • 机器学习小记——KNN(K近邻) ^_^ (一)

    为了让绝大多数人都可以看懂,所以我就用简单的话语来讲解机器学习每一个算法 第一次写ML的博文,所以可能会有些地方出错,欢迎各位大佬提出意见或错误 祝大家开心进步每一天~ 博文代码全部为python   简单的说一下什么是机器学习,机器学习英文名称是Machine Learning, ML 机器学习(Machine Learning, ML)是一门多领域交叉学…

    机器学习 2023年4月12日
    00
  • 如何入门Pytorch之一:Pytorch基本知识介绍

    前言        PyTorch和Tensorflow是目前最为火热的两大深度学习框架,Tensorflow主要用户群在于工业界,而PyTorch主要用户分布在学术界。目前视觉三大顶会的论文大多都是基于PyTorch,如何快速入门PyTorch成了当务之急。 正文       本着循序渐进的原则,我会依次从易到难的内容进行介绍,并采用定期更新的方式来补充该…

    2023年4月6日
    00
  • 吴恩达机器学习笔记47-K均值算法的优化目标、随机初始化与聚类数量的选择(Optimization Objective & Random Initialization & Choosing the Number of Clusters of K-Means Algorithm)

    一、K均值算法的优化目标     K-均值最小化问题,是要最小化所有的数据点与其所关联的聚类中心点之间的距离之和,因此 K-均值的代价函数(又称畸变函数 Distortion function)为: 其中????????(????)代表与????(????)最近的聚类中心点。 我们的的优化目标便是找出使得代价函数最小的 ????(1),????(2),……

    2023年4月10日
    00
合作推广
合作推广
分享本页
返回顶部