机器学习
-
机器学习之两三问
1、什么是召回率和准确率 准确率比较好理解,准确率是在所有判断positive的对象中,正确判断的比例是多少 公式为 其中TP代表为true positive ,FP为false positive 召回率是在所有positive样本中,判断positive的比例是多少 公式为,其中…
-
【机器学习】使用伪标签进行半监督学习
使用伪标签进行半监督学习,在机器学习竞赛当中是一个比较容易快速上分的关键点。下面给大家来介绍一下什么是基于伪标签的半监督学习。在传统的监督学习当中,我们的训练集具有标签,同时,测试集也具有标签。这样我们通过训练集训练到的模型就可以在测试集上验证模型的准确率。 然而使用伪标签的话,我们则可以使用训练集训练出一个最好的模型,然后再去除测试集的真实的标签,然后用这…
-
【机器学习】:Xgboost使用optuna进行调试参数
代码如下: def objective(trial,data=data,target=target): train_x, test_x, train_y, test_y = train_test_split(data, target, test_size=0.15,random_state=42) param = { ‘tree_method’:’gpu_h…
-
【机器学习】:Xgboost和GBDT的不同与比较
【与传统GBDT相比,XGBoost有何不同】 基函数不同。GBDT只用CART树,XGBoost除了CART,也支持线性函数。 目标不同。具体体现在结点分裂策略与正则化。GBDT和XGBoost都是根据目标增益分裂结点,GBDT根据均方误差(回归)或基尼指数(分类),XGBoost则进一步引入正则项。 正则化不同。XGBoost定义正则化,包含了对叶子结点…
-
【机器学习】:决策树之CART回归树
在决策树算法当中,cart回归树是决策树的一种,它用来做回归的策略十分常见。可能还会在后续的GBDT模型当中所运用到,用来作为我们分裂节点的一个标准,我们来了解了解。 备注: 在进行计算回归树的c1和c2的值的时候,我们使用的方法,是对c1所在的区域做一个平均值,然后对c2的所在的区域算出一个平均值。c1和c2的交界处就…
-
【机器学习】:特征筛选方法
一.基于统计值的筛选方法 1.过滤法:选择特征的时候,不管模型如何,首先统计计算该特征和和label的一个相关性,自相关性,发散性等等统计指标。 优点:特征选择开销小,有效避免过拟合 缺点:没有考虑后续的学习器来选择特征,减弱了学习器的学习能力(因为某些特征可能和label算出来相关性不大,但是可能和其他特征交叉后,会和label具有很强的关联性) 2.单变…
-
【机器学习】:特征工程
我总结了以下特征工程的一些方法,好的数据和特征往往在数据挖掘当中会给我们带来更好的acc,尤其对于数据挖掘而言。数据决定了预测准确度的上线,而模型的目的则是去尽量逼近这个上限。由此可见,对数据进行特征工程,拥有良好的数据是多么的重要。 对于特征工程而言,我们一般会对类别型数据或者数值型数据进行相应的编码。下面我们首先来看看对类别型数据进行编码: …
-
周志华-机器学习西瓜书-第三章习题3.3 编程实现对率回归
本文为周志华机器学习西瓜书第三章课后习题3.3答案,编程实现对率回归,数据集为书本第89页的数据 使用tensorflow实现过程 # coding=utf-8 import tensorflow as tf from numpy import * import numpy as np import matplotlib.pyplot as plt data…
-
周志华-机器学习西瓜书-第三章习题3.5 LDA
本文为周志华机器学习西瓜书第三章课后习题3.5答案,编程实现线性判别分析LDA,数据集为书本第89页的数据 首先介绍LDA算法流程: LDA的一个手工计算数学实例: 课后习题的代码: # coding=utf-8# import flattenimport tensorflow as tffrom numpy import *import numpy…
-
机器学习–数据挖掘算法(无监督)
分类:有监督 聚类:无监督 二、kmeans 算法 #自己创建数据集 1 X, y = make_blobs(n_samples=500,n_features=2,centers=4,random_state=1) 2 plt.scatter(X[:, 0], X[:, 1], marker=’o’ ,s=8 ) 3 color = [“red”…