机器学习算法分类

传统机器学习算法主要包括以下五类: 

  • 回归:建立一个回归方程来预测目标值,用于连续型分布预测
  • 分类:给定大量带标签的数据,计算出未知标签样本的标签取值
  • 聚类:将不带标签的数据根据距离聚集成不同的簇,每一簇数据有共同的特征
  • 关联分析:计算出数据之间的频繁项集合
  • 降维:原高维空间中的数据点映射到低维度的空间中
机器学习笔记(一)基本概念与单变量线性回归

(1)线性回归:找到一条直线来预测目标值;
(2)逻辑回归:找到一条直线来分类数据;
(3)K-邻近:用距离度量最相邻的分类标签;
(4)朴素贝叶斯:选择后验概率最大的类为分类标签;
(5)决策树:构造一颗熵值下降最快的分类树;
(6)支持向量机(SVM):构造超平面,分类非线性数据;
(7)K-means:计算质心,聚类无标签数据;
(8)FP-Growth:分析数据的关联关系,从频繁项集中产生关联关系,输出置信度;
(9)PCA降维:减少数据维度,降低数据复杂度;
(10)人工神经网络:逐层抽象,逼近任意函数;
(11)深度学习:底层特征->中层特征->高层特征->预测识别->结果。

 

supervised learning(监督学习)

1、什么是监督学习?

从给定的训练数据集中学习出一个函数(模型参数),当新的数据到来时,可以根据这个函数预测结果。监督学习的训练集要求包括输入输出,也可以说是特征和目标。训练集中的目标是由人标注的。

 

2、常见问题:

(1)回归问题:预测房价

机器学习笔记(一)基本概念与单变量线性回归

(2)分类问题:预测是否患癌

机器学习笔记(一)基本概念与单变量线性回归

  

unsupervised learning(无监督学习)

1、什么是无监督学习?

在非监督学习中,数据没有附带任何标签,学习过程中并不知道分类结果是否正确。

 

2、常见问题:

(1)聚类问题:

机器学习笔记(一)基本概念与单变量线性回归

(2)鸡尾酒会问题:酒会中有两个话筒,一个主要接收人声,一个主要接收BGM。如何使用电脑将人声和BGM分离?

机器学习笔记(一)基本概念与单变量线性回归

 

linear regression with one variable(单变量线性回归)

1、字符定义:

机器学习笔记(一)基本概念与单变量线性回归

 

2、监督学习算法的工作方式:

机器学习笔记(一)基本概念与单变量线性回归

 

3、单变量线性回归模型:

机器学习笔记(一)基本概念与单变量线性回归

 

4、cost function (代价函数):

目标便是选择出可以使得建模误差的平方和最小的模型参数。

机器学习笔记(一)基本概念与单变量线性回归

直观感受假设函数h与代价函数J:上述代价函数可以用三维图或者轮廓图表示出来。

可见局部最优解在轮廓图的最内圈或者三维图的最底下。

机器学习笔记(一)基本概念与单变量线性回归机器学习笔记(一)基本概念与单变量线性回归

 

5、gradient descent (梯度下降算法):

(1)算法思想:先找到下降最快的方向,走到新位置再调整方向,不断重复,直到走到最低点。

机器学习笔记(一)基本概念与单变量线性回归机器学习笔记(一)基本概念与单变量线性回归

 

(2)算法过程:

机器学习笔记(一)基本概念与单变量线性回归

α为“学习速率”,控制以多大的幅度更新参数。

如果α太小,下降速率太慢;如果α太大,导致无法收敛。

注:每次循环都要同时更新1

机器学习笔记(一)基本概念与单变量线性回归

 

(3)Question:为什么梯度下降能够达到局部最优值?

当我们接近局部最优时,其定义就是导数等于0,当我们接近局部最优,导数项会自动变小,梯度下降算法会自动采取越来越小的步子。

机器学习笔记(一)基本概念与单变量线性回归

 

(4)gradient descent for linear regression (线性回归梯度下降算法):

机器学习笔记(一)基本概念与单变量线性回归

 机器学习笔记(一)基本概念与单变量线性回归