1. 机器学习中的常用分类器:回归、分类(确定是哪一类)

1)线性回归:根据给出的数据拟合出一条直线或曲线,反应数据的分布;

评判的准则或损失函数:统计所有预测值yi及对应实际值y之间的距离之和,使其最小化;

理解,参考:

  •  线性回归:https://blog.csdn.net/wade1203/article/details/96411653
  •  三种回归算法及其优缺点:https://blog.csdn.net/weixin_30333885/article/details/97678615?utm_medium=distribute.pc_relevant.none-task-blog-BlogCommendFromMachineLearnPai2-1.edu_weight&depth_1-utm_source=distribute.pc_relevant.none-task-blog-BlogCommendFromMachineLearnPai2-1.edu_weight
  • 多元线性回归:https://blog.csdn.net/loveliuzz/article/details/78006493?utm_source=blogxgwz8
  • 一元线性回归:https://blog.csdn.net/qq_38238112/article/details/108011138
  • 机器学习中6种常见的线性模型:https://blog.csdn.net/u013421629/article/details/103752384
  • 机器学习中8种常见的非线性模型:https://blog.csdn.net/u013421629/article/details/103752407
  • 人工智能社区:https://www.captainbed.net/qianyan/

2)逻辑(Logistic)回归:是二分类问题,不是回归问题;

     它可以把输出的值映射到0-1之间表示概率问题,如果中间设定某一阈值(比如0.5),大于0.5表示正类,小于0.5表示分类,即二分类问题;

    softmax回归:跟逻辑回归一样,是分类问题,不是回归问题;只不过softmax针对的是多分类;

参考:https://www.cnblogs.com/yinheyi/p/6131262.html

3)SVM支持向量机:定义在特征空间上的线性分类器,是一种二分类模型;

超平面:分类的决策边界;

支持向量:在SVM中,希望找到的离分隔超平面最近的点,确保他们离分隔超平面的距离尽可能的远;

参考:https://blog.csdn.net/gwplovekimi/article/details/80301614

4)贝叶斯分类器

 参考:https://www.cnblogs.com/NewBee-CHH/p/9770914.html

5)K近邻(KNN):是一种有监督分类算法;前提是:训练的数据集有类别标签;

       1)计算测试数据与各个训练数据之间的距离;

  2)按照距离的递增关系进行排序;

  3)选取距离最小的K个点;

  4)确定前K个点所在类别的出现频率;

  5)返回前K个点中出现频率最高的类别作为测试数据的预测分类

6)决策树

 根节点、非叶子节点(决策点)、叶子节点、分支;

6.1)决策树-熵

事件发生的概率越大,它的不确定性越小;

决策树-熵: 熵 = -ΣPi*In(Pi)

A中的类别比较多,每个的类别的概率比较小,熵值比较大;B中的类别比较少时,每个的类别的概率比较大,熵值比较小.

Gini系数: Gini(p) = ΣPi*(1-Pi) = 1- ΣPi2

6.2) 根节点如何选取?

决策树的基本思想:随着树深度的加深,节点的熵迅速降低,熵降低的速度越快越好,这样有望得到一颗高度最矮的决策树;

   熵A=没有任何操作的情况下,仅根据历史标签的分类概率求出的熵值;

    熵B=选择某一种情况作为根节点是,所求出的熵值;

信息增益:= 熵A - 熵B;  信息增益越大越好,分类后的数据越纯;比如:ID3

根节点的选择:是那个使信息增益值最大,就选那个当成根节点;

6.3) 信息增益率:防止当数据比较稀疏时,信息增益特别大,出现过拟合;例如用ID号当分类节点时,每个类为叶子节点,熵值为0,信息增益是原始的熵值A,信息增益值最大,显然此时若选择ID号作为根节点显然不合适,为此引入信息增益率来判定根节点选择;

评价函数:类似于目标函数,使其风险代价最小;

7)集成模型