机器学习
-
机器学习实战笔记-Logistic回归
假设现在有一些数据点,我们用一条直线对这些点进行拟合(该线称为最佳拟合直线),这个拟合过程就称作回归。 利用Logistic回归进行分类的主要思想是:根据现有数据对分类边界线建立回归公式,以此进行分类。这里的“ 回归” 一词源于最佳拟合,表示要找到最佳拟合参数集 训练分类器时的做法就是寻找最佳拟合参数,使用的是最优化算法。 Logistic回归的一般过程 (…
-
机器学习实战笔记-树回归
9.1 复杂数据的局部性建模 第3章使用决策树来进行分类。决策树不断将数据切分成小数据集,直到所有目标变量完全相 同 ,或者数据不能再切分为止。决策树是一种贪心算法,它要在给定时间内做出最佳选择,但并不关心能否达到全局最优。 树回归 优点:可以对复杂和非线性的数据建模。 缺点:结果不易理解。 适用数据类型:数值型和标称型数据。 第3章使用的树构建算法是ID3…
-
机器学习实战笔记-利用AdaBoost元算法提高分类性能
做重要决定时,大家可能都会考虑吸取多个专家而不只是一个人的意见。机器学习处理问题时又何尝不是如此?这就是元算法(meta-algorithm ) 背后的思路。元算法是对其他算法进行组合的一种方式 7.1 基于数据集多重抽样的分类器 我们自然可以将不同的分类器组合起来,而这种组合结果则被称为集成方法(ensemblemethod)或者元算法(meta-al…
-
机器学习实战笔记-朴素贝叶斯
4.1.基于贝叶斯决策理论的分类方法 朴素贝叶斯 优点:在数据较少的情况下仍然有效,可以处理多类别问题。 缺点:对于输入数据的准备方式较为敏感。 适用数据类型:标称型数据。 朴素贝叶斯是贝叶斯决策理论的一部分,所以讲述朴素负叶斯之前有必要快速了解一下贝叶斯决策理论。 假设现在我们有一个数据集,它由两类数据组成,数据分布如图4-1所示。 我们现在用), 那么…
-
统计学习(统计机器)方法概论
根据李航老师所著《统计学习方法》为线,结合其他书籍和网上资料,开始对机器学习进行系统整理。 2018.12.30:今日开始对写过的内容进行修改和细化补充,主要参考周志华教授的《机器学习》,辅以各大网友的不吝赐教。 统计学习是关于计算机基于数据构建概率统计模型并运用模型对数据进行预测和分析的一门学科。 1、特点:(1)以计算机和网络为平台;(2)以数据为研…
-
机器学习与数据科学 基于R的统计学习方法(基础部分)
1.1 机器学习的分类 监督学习:线性回归或逻辑回归, 非监督学习:是K-均值聚类, 即在数据点集中找出“聚类”。 另一种常用技术叫做主成分分析(PCA) , 用于降维, 算法的评估方法也不尽相同。 最常用的方法是将均方根误差(RMSE) 的值降到最小, 这一数值用于评价测试集的预测结果是否准确。 RMSE评价法会在第7章进行更深入的解释。 另一种常用的评估…
-
微软分布式机器学习工具包DMTK——初窥门径
在现在机器学习如日中天的大背景下,微软亚洲研究院的实习岗位中,机器学习组的工作也是维护DMTK,参与算法改进,那么在此之前我们得了解DMTK是个啥。 DMTK由一个服务于分布式机器学习的框架和一组分布式机器学习算法构成,是一个将机器学习算法应用在大数据上的强大工具包;无论是学术界的研究人员还是工业界的开发者,DMTK可以帮助他们在超大规模数据上灵活稳定地训练…
-
机器学习资料
微软亚洲研究院开源分布式机器学习工具包: http://news.cnblogs.com/n/532445/ 谷歌发布第二代机器学习系统TensorFlow 完全开源 :http://www.cnbeta.com/articles/446555.htm 人人都可以做深度学习应用:入门篇 http://geek.csdn.net/news/detail…
-
机器学习算法一:感知器学习
问题描述: 给定线性可分数据集:T={(x1,y1),(x2,y2),…,(xN,yN)},存在超平面S:$w\cdot x+b=0$ $ \left\{\begin{matrix} w\cdot x+b>0,y=+1\\ w\cdot x+b<0,y=-1 \end{matrix}\right. $ 学习策略: 定义点x0到超…
-
机器学习之正则化技术
前言 机器学习中的核心问题:模型的设计不仅在训练数据上表现好,并且能在新输入上泛化好; 正则化策略:以增大训练误差为代价,来减少测试误差(如果在训练误差上很小,可能出现过拟合的情况); 最好的拟合模型(最小化泛化误差的意义上)是一个适当正则化的大型模型。 正则化(regularization)的作用实际上就是防止模型过拟合,提高模型的泛化能力。其思想是在损失…