机器学习
-
如何学习机器学习的一点心得
转载自:http://blog.csdn.net/lcjpure/article/details/8069704 结合自己的学习经历,总结一下如何学习机器学习。我自己的学习过程其实是非常混乱和痛苦的,一个人瞎搞现在也不知道入没入门。希望能对其他想自学机器学习而找不到方向的人有一点点帮助。 一、可以读读一些科普性的,综述性的东西。 南京大学周志华教授写的科普文…
-
机器学习实战——第二章之改进约会网站的配对效果
三种类型:不喜欢的-1,魅力一般的-2,极具魅力的-3。 样本特征:每年获得的飞行常客里程数,玩视频游戏所耗时间百分比,每周消费的冰淇淋公升数。 1 from numpy import * 2 import matplotlib 3 import matplotlib.pyplot as plt 4 5 ”’ 6 输入文本文件名字符串,输出训练样本矩阵…
-
【机器学习】感知机学习算法(PLA)
感知机问题学习算法引入:信用卡问题 根据已知数据(不同标准的人的信用评级)训练后得出一个能不能给新客户发放信用卡的评定结果 解决该问题的核心思想扔为之前所讲到的梯度下降算法,对于更多条件的类似问题,首先选取一个超平面w0,b0,然后用梯度下降算法不断极小化目标函数,使得此过程中随机一个有误分类点的梯度下降。 过程通过随机选取一个分类点,(xi,yi)依据…
-
【机器学习】1 监督学习应用与梯度下降
监督学习 简单来说监督学习模型如图所示 其中 x是输入变量 又叫特征向量 y是输出变量 又叫目标向量 通常的我们用(x,y)表示一个样本 而第i个样本 用(x(i),y(i))表示 h是输出函数 监督学习的任务是学习一个模型,使模型能够对任意的输入,做出很好的预测。 习惯的样本训练数目用m表示 梯度下降算法 h(x) = Θ0 +Θ1×1+…+Θi…
-
【机器学习】异常检测算法(I)
在给定的数据集,我们假设数据是正常的 ,现在需要知道新给的数据Xtest中不属于该组数据的几率p(X)。 异常检测主要用来识别欺骗,例如通过之前的数据来识别新一次的数据是否存在异常,比如根据一个用户以前的使用习惯(数据)来判断这次使用的用户是不是以前的用户。或者根据之前CPU正常运行时候的的用量数据来判断当前状态下的CPU是否正常工作。 这里我们通过密度估计…
-
【机器学习】Octave 实现逻辑回归 Logistic Regression
34.62365962451697,78.0246928153624,0 30.28671076822607,43.89499752400101,0 35.84740876993872,72.90219802708364,0 60.18259938620976,86.30855209546826,1 79.0327360507101,75.344376436…
-
【机器学习】机器学习中的误差减少策略
我们在拿到样本后进行机器学习,通常可以将样本分为两部分,比如前70%用来机器学习得到Θ,后30%用来对数据进行检验。 如何进行检验? 之前我们知道,逻辑回归代价函数JΘ的计算法方法,那么此处同理,我们可以得到对测试数据的JtestΘ的表达式,然后,我们利用剩下的测试数据统计0 / 1错分率,(或称误分类率)error(hΘ(x),y),得到test erro…
-
机器学习技法 之 随机森林(Random Forest)
森林顾名思义就是有很多树,这里的树当然就是决策树。实际上随机森林就是将 fully-grown C&RT decision tree 作为 bagging 基模型(base model)。 \[\text{random forest (RF) = bagging + fully-grown C\&RT decision tree} \] ba…
-
机器学习-第二章
经验误差与过拟合 错误率=\(\frac{分类错误的样本}{总样本数}\)精度=1-错误率学习器的实际预测输出与样本的真实输出之间的差异被称为“误差” 学习器在训练集上的误差为“训练误差”、在新样本上的误差为“泛化误差” 我们的目标是让学习器的泛化误差最小,而实际上因为新样本的不确定,我们只能尽可能地让学习器的训练误差最小。 过拟合是指学习器在通过训练集样本…
-
机器学习算法–集成学习
1. 个体和集成 集成学习通过构建并结合多个“个体学习器”来完成学习任务。个体学习器通常由一个现有的学习算法从训练数据产生,若集成中只包含同种类型的个体学习器,称为同质集成;若包含不同类型的个体学习器,为异质集成。同质集成中的个体学习器也成为“基学习器”。 如何产生并结合“好而不同”的个体学习器,恰是集成学习研究的核心。 根据个体学…