机器学习笔记（一）

2023年4月13日下午8:38 • 机器学习

　　　　1.监督学习中数据集是由特征组和标签组成，目的是训练机器对标签取值的准确预测。如：房价预测、肿瘤判定、垃圾邮件判定。

　　　　2.无监督学习中人工不对数据集作任何说明，不给答案，不贴标签，目的是让机器自动将一堆混乱的数据分成几个簇（类），而分类的标准没有事先

　　　　· 给出。例如：新闻分类、自动市场分割、前景与背景声音分割。

　　　　机器学习笔记（一）

二、回归问题（regression）与分类问题（classification）

　　　　1.回归与分类都属于监督学习。
　　　　2.回归问题的标签是在一定区间内的连续量，例如房价预测。
　　　　3.分类问题的标签是有限的离散变量，例如肿瘤鉴定。

　　　　3.分类问题与回归问题可以相互转化。对于分类问题，可以转化为对象标签的概率预测，而概率处于【0,1】之间，可以认为是一个回归问题。例如Logistic回归

　　　　　就是运用回归方法来解决分类问题的；对于回归问题，可以通过标签的区间划分将对象分为不同类别，所以可以用分类问题的算法来近似预测。

　　　　机器学习笔记（一）

三、线性回归（linear regression）

　　1.符号定义

　　　　

　　　　M:数据量（图中一行为一份数据）；
　　　　X：特征输入，x_j⁽ⁱ⁾表示第i行数据第j个特征量；
　　　　Y：目标输出，为一个列向量；
　　　　θ：模型参数；
　　　　h_θ (x): 假设函数（Hypothesis），如：机器学习笔记（一）

　　2.代价函数（cost function）

　　　　机器学习笔记（一）
　　　　公式表示每一份数据的预测值与实际值之间偏差的平方之和，再取均值。代价越小，拟合越好。
　　　　只有一个模型参数时，代价函数是一个一元二次函数，当有两个模型参数时，代价函数分布如下：
　　　　机器学习笔记（一）
　　　　用等高线图表示,每个等值线表示代价相同，越接近中心，代价越小：

　　　　机器学习笔记（一）

　　3.梯度下降法（gradient descent）

　　　　沿梯度方向更新模型参数，最终达到局部最低点。但当特征较多时，更多时候取得是局部最小值。
　　　　机器学习笔记（一）
　　　　更新方程：

　　　　　　机器学习笔记（一）
　　　　α为学习率，他的大小决定了达到最优解的快慢。如果α太小，迭代的次数就会很多，但最终迭代结果越精确；而如果α太大，一开始会很快接近最优解，　　

　　　　但在最优解附近震荡。一般需要对迭代结果进行检查，以确保算法的正确以及学习率的合理性，可以绘制iteration-J曲线图进行调试。或者，采用动态学

　　　　习率，在接近收敛时学习率可以自动变小。

　　　　　　　　　　　　

　　　　梯度下降主要有BATCH梯度下降和随机梯度下降，前者在计算代价函数时采用全部数据，这在数据量十分大时计算量非常大，因此常采用后者，取部分数据

　　　　计算代价函数。两者迭代过程分别如下：

　　　　　　　　　　机器学习笔记（一）

　　4.特征缩放（feature scaling）

　　　　当多个特征的取值相差的数量级较大时，等高线被过分拉长，会导致迭代次数增加，降低算法效率，
　　　　因此在处理多元线性回归时要特征缩放，将特征的值统一到（-1,1）附近。

　　　　　机器学习笔记（一）

　　5.多项式回归（polynomial scaling）

　　　　普通的线性回归，拟合出来的都是一条直线，有时候并不能很好地贴合数据。例如在房价预测中，假设特征只有size，那么我们自己可以定义　　　　

　　　　第二特征为（size）^2，甚至定义第三特征(size)^3。那么假设函数仍是各特征的线性函数，但却原始特征size的三次函数了。

　　　　　　　　机器学习笔记（一）

　　6.方程的矩阵表示

　　　　♦数据矩阵

　　　　　　

　　　　　　数据矩阵的行表示第i份数据，包含所有特征量；
　　　　　　数据矩阵的列表示某个特征的所有数据，其中x_n^((m))=1。

　　　　♦系数矩阵

　　　　　　机器学习笔记（一）　　　　

　　　　　　系数矩阵每行对应一个特征；

　　　　♦输出矩阵

　　　　　　

　　　　♦方程的矩阵表示

　　　　　　机器学习笔记（一）

　　7.正规方程（normal equation）　

　　　

　　　　我们的目标是寻求代价函数的最小值，那么可以求使一阶偏导为0的点。即：

　　　　机器学习笔记（一）
　　　　最终可以得到正规方程，即θ的最优解：

　　　　　

　　　　采用正规方程法，不需要再设定学习率，过程自动化了很多，并且这里是不需要特征缩放的；在特征个数n比较小的时候，效率高于梯度下降法；

　　　　但当n比较大（万级）,就不如梯度下降法了。并且正规方程法对后面的许多算法也不适用。在运用正规化方程式，可能会碰到数据举证不可逆的

　　　　情况，原因主要有两点：有两个以上的特征线性相关。样本数少，而特征量过多（如m=10,n=100）。

　　8.矩阵向量求导
　　　　

　　　　参考博客：https://www.cnblogs.com/pinard/p/10750718.html
　　　　关于矩阵向量求导，主要有以下9种情况：
　　　　机器学习笔记（一）　　　　

　　　　为了清晰区分标量、向量与矩阵，用小写表示标量。大写表示向量与矩阵，并且写出它们的下标。关于求导布局，有分子布局和分母布局两种，一般

　　　　标量对向量矩阵求导采用分母布局，向量矩阵对标量求导采用分子布局，向量对向量求导采用分子布局。总结起来就是分子是向量或矩阵，就采用分子布局。

　　　　♦向量或矩阵对标量求导

　　　　　　假设有一系列标量对同一标量求导：
　　　　　　　　　　　　　　　　
　　　　　　将这一系列标量排列为向量，所以向量矩阵对标量求导就是向量矩阵的每个元素都对标量求导，求完后再按分子布局排列，矩阵对标量求导也类似。
　　　　　　　　　　机器学习笔记（一）

　　　　♦标量对向量或矩阵求导

　　　　　　　　机器学习笔记（一）

　　　　♦向量对向量求导

　　　　　　　就是对向量Y中的每个元素，它要对向量X中的每个元素都求遍导，求导结果为一个矩阵，由于采用分子布局，则矩阵的列与Y列数相同，行与X

　　　　　　　的列数的相同。　　　

　　　　　　　　机器学习笔记（一）

　　　　　　　如果是列向量对行向量求导，结果矩阵同上；

　　　　　　　如果是行向量Y_(1*m)对列向量X_(n*1)求导，结果维度为n*m。

　　9.微分法求解矩阵向量的导数

　　　　参考博客：https://www.cnblogs.com/pinard/p/10791506.html

　　　　♦微分与导数的关系

　　　　　　Tr为迹，等于主对角元素之和，那么标量的迹等于它本身。

　　　　♦矩阵微分的性质

　　　　　　

　　　　♦迹的性质

　　　　　　机器学习笔记（一）

　　10.正规方程推导

　　　　　　
　　　　　　机器学习笔记（一）

　　　　　　机器学习笔记（一）

本站文章如无特殊说明，均为本站原创，如若转载，请注明出处：机器学习笔记（一） - Python技术站

人工智能机器学习

赞 (0)

微信扫一扫

微信扫一扫

支付宝扫一扫

支付宝扫一扫

机器学习中分类问题

上一篇 2023年4月13日

常用的数据挖掘&机器学习知识(点)

下一篇 2023年4月13日

tensorflow学习–sess.run()

—恢复内容开始— 当我们编写tensorflow代码时，总是定义好整个计算图，然后才调用sess.run()去执行整个定义好的计算图，那么有两个问题：一是当执行sess.sun()的时候，程序是否执行了计算图上的所有节点呢？二是sees.run()中的fetch, 为了取回（Fetch）操作的输出内容, 我们在sess.run()里面传入ten…

tensorflow 2023年4月8日
000
卷积神经网络

Deep Learning论文笔记之（四）CNN卷积神经网络推导和实现 – legendsun

Deep Learning论文笔记之（四）CNN卷积神经网络推导和实现 Deep Learning论文笔记之（四）CNN卷积神经网络推导和实现 zouxy09@qq.com http://blog.csdn.net/zouxy09 自己平时看了一些论文，但老感觉看完过后就会慢慢的淡忘，某一天重新拾起来的时候又好像没有看过一样。所以想习…

2023年4月8日
000
train loss与test loss结果分析（接利用caffe的solverstate断点训练）

train loss 不断下降，test loss不断下降，说明网络仍在学习; train loss 不断下降，test loss趋于不变，说明网络过拟合; train loss 趋于不变，test loss不断下降，说明数据集100%有问题; train loss 趋于不变，test loss趋于不变，说明学习遇到瓶颈，需要减小学习率或批量数目; trai…

Caffe 2023年4月7日
000
执行caffe的draw_net.py出现“GraphViz’s executable “dot” not found”的解决方法

控制台输入如下指令画网络图： python ../../../python/draw_net.py train.prototxt train.png –rankdir=TB （Top-Bottom形式，纵向图） python ../../../python/draw_net.py train.prototxt train.png –rankdir=LR（…

Caffe 2023年4月6日
000
PyTorch

win10/windows 安装Pytorch

https://pytorch.org/get-started/locally/ 去官网，选择你需要的版本。把 pip install torch==1.5.0+cu101 torchvision==0.6.0+cu101 -f https://download.pytorch.org/whl/torch_stable.html 命令行执行。 C…

2023年4月8日
000
卷积神经网络

（12）可形变卷积

之前的项目中使用了可形变卷积，感觉有效果，所以就具体看一下。论文: ormable-ConvNets 传统的卷积由于规则形状固定，不能完全适应目标的形状，我们期望的应该是一种自适应卷积，或者说可形变（Deformable Convolution ）卷积，就像这样：首先看顶层的feature map，我们取两个激活点（分别在大羊和小羊身上），代表的是…

2023年4月6日
000
Tensorflow训练小游戏

在Ubuntu中安装opencv等插件，运行代码： 1 #! /usr/bin/python 2 # -*- coding: utf-8 -*- 3 4 import pygame 5 import random 6 from pygame.locals import * 7 import numpy as np 8 from collections imp…

tensorflow 2023年4月6日
000
循环神经网络

循环神经网络、注意力机制、Seq2Seq、Transformer与卷积神经网络（打卡2）

一、过拟合和欠拟合接下来，我们将探究模型训练中经常出现的两类典型问题：一类是模型无法得到较低的训练误差，我们将这一现象称作欠拟合（underfitting）；另一类是模型的训练误差远小于它在测试数据集上的误差，我们称该现象为过拟合（overfitting）。在实践中，我们要尽可能同时应对欠拟合和过拟合。虽然有很多因素可能导致这两种拟合问题，在这里我们…

2023年4月7日
000

合作推广

合作推广

返回顶部