《机器学习技法》—决策树

2023年4月12日下午10:20 • 机器学习

决策树可以看作非线性的模型聚合：

《机器学习技法》---决策树

递归形式是：

《机器学习技法》---决策树

其中，G(x)表示决策树对应的函数，b(x)表示分叉的规则，Gc(x)是子树的模型。

2 一般决策树生成算法的框架

《机器学习技法》---决策树

即，学习划分规则b(x)，然后把数据按照b(x)划分为C部分，对每一部分递归地生成子树。注意递归在一定条件停止，直接返回一个g(x)。

事实上，不同的决策树算法，都是这个基本的框架。不同的地方在于这四个部分的具体定义是不同的：

《机器学习技法》---决策树

3 CART算法

CART算法中，框架中的四个部分分别定义为：

number of branches:每次划分的分支规定为2。也就是CART决策树是一个二叉树。

branching criteria:选择一种划分方式，使得划分后两边数据集不纯度最低（不确定性小）：

《机器学习技法》---决策树

base hypothesis：最底层的g(x)是一个常数，使得在最后的小数据集上Ein最小。

《机器学习技法》---决策树

termination criteria:节点中样本个数小于阈值，或基尼指数小于阈值，或没有更多特征。

回归的不纯度定义为：

《机器学习技法》---决策树

分类的不纯度定义为：

《机器学习技法》---决策树

也称为基尼指数。其中，K是总共的类别数。

因此，整个算法就是：

《机器学习技法》---决策树

4 树的剪枝

为了避免过拟合，需要对产生的树作剪枝。方法是，对当前的树T，去掉一片叶子，选择去掉之后Ein最大的树，得到T1；再对T1去掉一片叶子.......直到只剩一个节点。对产生的T，T1，T2......，选择加正则项的损失函数最小的树作为最终剪枝的树：

《机器学习技法》---决策树

5 决策树算法的优点

《机器学习技法》---决策树

缺点是理论保证上还不太完备。

本站文章如无特殊说明，均为本站原创，如若转载，请注明出处：《机器学习技法》—决策树 - Python技术站

人工智能机器学习

赞 (0)

微信扫一扫

微信扫一扫

支付宝扫一扫

支付宝扫一扫

【原创】机器学习算法原理与实践-决策树（文章迁移）

上一篇 2023年4月12日

《机器学习技法》—AdaBoost算法

下一篇 2023年4月12日

卷积神经网络

【33】卷积步长讲解(Strided convolutions)

卷积步长（Strided convolutions）卷积中的步幅是另一个构建卷积神经网络的基本操作，让我向你展示一个例子。如果你想用3×3的过滤器卷积这个7×7的图像，和之前不同的是，我们把步幅设置成了2。你还和之前一样取左上方的3×3区域的元素的乘积，再加起来，最后结果为91。只是之前我们移动蓝框的步长是1，现在移动的步长是2，我们让过滤器跳过2个步…

2023年4月5日
000
pytorch Model Linear实现线性回归CUDA版本

实验代码 import torch import torch.nn as nn #y = wx + b class MyModel(nn.Module): def __init__(self): super(MyModel,self).__init__() #自定义代码 # self.w = torch.rand([500,1],requires_gra…

PyTorch 2023年4月8日
000
卷积神经网络

Group Convolution组卷积

思路按照常规卷积到组卷积来。常规卷积：如果输入feature map尺寸为C∗H∗W C*H*WC∗H∗W，卷积核有N NN个，输出feature map与卷积核的数量相同也是N NN，每个卷积核的尺寸为C∗K∗K C*K*KC∗K∗K，N NN个卷积核的总参数量为N∗C∗K∗K N*C*K*KN∗C∗K∗K，输入map与输出map的连接方式如下图所示 …

2023年4月8日
000
自定义训练的演示，使用tf-data,Eager Execution和keras

1，机器学习的基本步骤 Import and parse the data sets. Select the type of model. Train the model. Evaluate the model’s effectiveness. Use the trained model to make predictions 2，eager mode的使用…

Keras 2023年4月6日
000
GAN生成对抗网络

用MXNet实现mnist的生成对抗网络(GAN)

生成式对抗网络（Generative Adversarial Network，简称GAN）由一个生成网络与一个判别网络组成。生成网络从潜在空间（latent space）中随机采样作为输入，其输出结果需要尽量模仿训练集中的真实样本。判别网络的输入则为真实样本或生成网络的输出，其目的是将生成网络的输出从真实样本中尽可能分辨出来。而生成网络则要尽可能地欺骗判别网…

2023年4月6日
000
目标检测

第四部分目标检测 2 笔记

3.5 Bounding box预测 Bounding box predictions YOLO algorithm(you only look once) —— 更精确的边界框检测算法。假设输入的图像大小为100×100，将图像划分为等大的方块，例如19×19的网格，为了简单起见，以3×3的网格举例。每个格子对应一个标签y，如3.1所述，每个y都是8维的…

2023年4月8日
000
Deep Learning 学习随记（七）Convolution and Pooling –卷积和池化

图像大小与参数个数：前面几章都是针对小图像块处理的，这一章则是针对大图像进行处理的。两者在这的区别还是很明显的，小图像（如8*8，MINIST的28*28）可以采用全连接的方式（即输入层和隐含层直接相连）。但是大图像，这个将会变得很耗时：比如96*96的图像，若采用全连接方式，需要96*96个输入单元，然后如果要训练100个特征，只这一层就需要96*96*…

卷积神经网络 2023年4月8日
000
PyTorch

pytorch提取神经网络模型层结构和参数初始化

torch.nn.Module()类有一些重要属性，我们可用其下面几个属性来实现对神经网络层结构的提取： torch.nn.Module.children() torch.nn.Module.modules() torch.nn.Module.named_children() torch.nn.Module.named_moduless() 为方面说明，我们…

2023年4月8日
000

合作推广

合作推广

返回顶部