机器学习9树回归

2023年4月13日上午1:00 • 机器学习

在前面线性回归，线性回归要拟合全部样本，这个是不显示的，因为问题不一定就是线性模型，其中一种可行的方法是将数据集切分成多分易建模的数据，然后利用前面线性回归的方法来建模。如果第一个切分之后的数据还不好拟合的话，那就继续切分。

这就是决策树中一种叫分类回归树CART。这个算法即可以用于分类也可以用于回归。

在这个学习中，介绍了树剪枝算法。

CART算法实现

先看一下之前的树分类

from numpy import *

def loadDataSet(fileName):      #general function to parse tab -delimited floats
    dataMat = []                #assume last column is target value
    fr = open(fileName)
    for line in fr.readlines():
        curLine = line.strip().split('\t')
        fltLine = map(float,curLine) #map all elements to float()
        dataMat.append(fltLine)
    return dataMat

def binSplitDataSet(dataSet, feature, value):
    mat0 = dataSet[nonzero(dataSet[:,feature] > value)[0],:][0]
    mat1 = dataSet[nonzero(dataSet[:,feature] <= value)[0],:][0]
    return mat0,mat1

我们大概看一下结果：

>>> import regTrees
>>> testMat = mat(eye(4))
>>> testMat
matrix([[ 1.,  0.,  0.,  0.],
        [ 0.,  1.,  0.,  0.],
        [ 0.,  0.,  1.,  0.],
        [ 0.,  0.,  0.,  1.]])
>>> mat0,mat1 = regTrees.binSplitDataSet(testMat,1,0.5)
>>> mat0
matrix([[ 0.,  1.,  0.,  0.]])
>>> mat1
matrix([[ 1.,  0.,  0.,  0.],
        [ 0.,  0.,  1.,  0.],
        [ 0.,  0.,  0.,  1.]])

第二个函数以第二个特征进行分类，以0.5作为切分。下面给出CART算法流程

具体代码先不贴了，下面看看这个算法的树剪枝算法。

对于一棵树来说，如果节点过多，这个模型可能对数据过拟合，我们之前采用了交叉验证来发现过拟合，这个决策树也是一样。

通过降低决策树的复杂度来避免过拟合的过程称为剪枝。剪枝分为预剪枝跟后剪枝。

学习的这个事需要坚持，这几天感觉状态不佳，看这些算法有点囫囵吞枣了，目前先这样吧，先匆匆看完吧。

本站文章如无特殊说明，均为本站原创，如若转载，请注明出处：机器学习9树回归 - Python技术站

人工智能机器学习

赞 (0)

微信扫一扫

微信扫一扫

支付宝扫一扫

支付宝扫一扫

机器学习11关联规则

上一篇 2023年4月13日

机器学习4logistic回归

下一篇 2023年4月13日

Keras

Keras实现风格迁移

风格迁移风格迁移算法经历多次定义和更新，现在应用在许多智能手机APP上。风格迁移在保留目标图片内容的基础上，将图片风格引用在目标图片上。风格本质上是指在各种空间尺度上图像中的纹理，颜色和视觉图案;内容是图像的高级宏观结构。实现风格迁移背后的关键概念与所有深度学习算法的核心相同：定义了一个损失函数来指定想要实现的目标，并最大限度地减少这种损失。知道自己想要实…

2023年4月8日
000
GAN生成对抗网络

GAN生成对抗网络-PIX2PIXGAN原理与基本实现-图像09

什么是pix2pix Gan 普通的GAN接收的G部分的输入是随机向量，输出是图像；D部分接收的输入是图像(生成的或是真实的)，输出是对或者错。这样G和D联手就能输出真实的图像。对于图像翻译任务来说，它的G输入显然应该是一张图x，输出当然也是一张图y。不需要添加随机输入。对于图像翻译这些任务来说，输入和输出之间会共享很多的信息。比如轮廓信息是共…

2023年4月5日
000
tensorflow

Win10+1050Ti配置Tensorflow教程

Win10+1050Ti配置Tensorflow教程笔者使用的是联想Y7000笔记本，显卡是1050Ti，在安装TensorFlow时，发现自己的显卡型号并不在NVDIA官网上支持型号的名单中，于是网上看了很多教程，很多都有问题（或者不适用于我这台电脑），踩了许多坑，总结很多之后最终配置成功，在这留下详细步骤。 NVDIA官网支持的显卡型号可以看到并没有…

2023年4月8日
000
循环神经网络

转循环神经网络(Recurrent Neural Networks, RNN)介绍

目录1 什么是RNNs2 RNNs能干什么　　2.1 语言模型与文本生成Language Modeling and Generating Text　　2.2 机器翻译Machine Translation　　2.3 语音识别Speech Recognition　　2.4 图像描述生成 Generating Image Descriptions3 如何训练RN…

2023年4月8日
000
目标检测

深度学习-目标检测的性能度量 reall ，precision P-R曲线，AP mAP

基本概念现在我们假设分类的目标有两类，一种是正例（Positive），另一种是负例（Negtive）。因此根据真实样例与预测样例的结果进行对比，我们可以如下表设计真实情况预测时正例假例 gt正例 TP FN 假例 FP TN 1）True positives(TP): 被正确地划分为正例的个数，即实际为正例且被分类器划分为正例的实例数（样本数） 2…

2023年4月8日
000
［caffe］caffe资料收集

1.caffe主页，有各种tutorial。 2.Evan Shelhamer的tutorial，包括视频。

Caffe 2023年4月6日
000
[caffe]网络各层参数设置

数据层数据层是模型最底层，提供提供数据输入和数据从Blobs转换成别的格式进行保存输出，通常数据预处理(减去均值，放大缩小，裁剪和镜像等)也在这一层设置参数实现. 参数设置： name: 名称 type: 类型 Data: 从LMDB/LEVELDB读取数据和标签，转换(http://deepdish.io/2015/04/28/creating-lmd…

Caffe 2023年4月8日
000
机器学习

Coursera机器学习week6 单元测试

高方差，选B 出现过拟合问题，选BD 出现欠拟合问题，选BC 选AC 一般用 6 2 2来分，随机打乱数据是很有必要的。选择BD A、出现高偏差，增加训练数据会增加测试误差 C、明显错的 week6 || Machine Learning System Design 求准确率（85+10）/ 1000 = 0.095 选AB 选A CD明显错误…

2023年4月9日
000

合作推广

合作推广

返回顶部