机器学习
-
机器学习-随机性、概率论、多元统计、特征间的相关性
机器学习-随机性、概率论、多元统计、特征间的相关性 随机性 洛伦兹动力学方程:美国气象学家洛伦兹建立了一个描述大气对流状况的数学模型。 洛伦兹动力学方程描绘出的运动轨迹具有一种奇特的形状,像一只展开了双翼的蝴蝶,所以又称为蝴蝶效应。 在这个蝴蝶上,确定性和随机性被统一在一起:一方面,运动的轨迹必然落在蝴蝶上,绝不会离它们而去,这是确定性的表现,表明系统未来的…
-
机器学习-决策树-ID3决策树
原理看上一篇,这篇只有代码实现 它以信息熵为度量标准,划分出决策树特征节点,每次优先选取信息量最多的属性,也就是使信息熵变为最小的属性,以构造一颗信息熵下降最快的决策树。 缺点 ID3算法的节点划分度量标准采用的是信息增益,信息增益偏向于选择特征值个数较多的特征。而取值个数较多的特征并不一定是最优的特征,所以需要改进选择属性的节点划分度量标准 ID3算法递归…
-
机器学习-各距离定义
机器学习-各类距离的定义 两个向量之间的距离(此时向量作为n维坐标系中的点)计算,在数学上称为向量的距离(distance),也称为样本之间的相似性度量(Similarity Measurement) 它反映为某类事物在距离上接近或远离的程度。直觉上,距离越近的就越相似,越容易归为一类;距离越远就越不同。 范数 向量的范数可以简单、形象地理解为向量的长度,…
-
机器学习-决策树-C4.5决策树
针对ID3算法存在的一些问题,1993年,Quinlan将ID3算法改进为C4.5算法。该算法成功地解决了ID3算法遇到的诸多问题,发展成为机器学习的十大算法之一。 C4.5并没有改变ID3的算法逻辑,基本的程序结构仍与ID3相同,但在节点的划分标准上做了改进。C4.5使用信息增益率(GainRatio)来替代信息增益(Gain)进行特征的选择,克服了信息增…
-
机器学习-文本分类实例-朴素贝叶斯
1.准备训练样本 使用的复旦大学文本分类样本数据 2.训练模型 3.准备测试数据 4.分类 训练模型 import os import jieba #Bunch类 from sklearn.datasets.base import Bunch import pickle from sklearn import feature_extraction from …
-
机器学习-二分KMeans
由于传统的KMeans算法的聚类结果容易受到初始聚类中心点选择的影响,因此在传统的KMeans算法的基础上进行算法改进,对初始中心点选取比较严格,各中心点的距离较远,这就避免了初始聚类中心会选到一个类上,一定程度上克服了算法限入局部最优状态。 二分KMeans(Bisecting KMeans)算法的主要思想是:首先将所有点作为一个簇,然后将该簇一分为二。之…
-
机器学习-SVD(隐语义模型)协同过滤
SVD(隐语义模型)协同过滤 隐语义模型,数学上称为SVD,奇异值分解。该算法最早在文本挖掘领域被提出,用于找到文章的隐含主题,也被称为主题模型。 隐语义模型的核心思想是通过隐含特征(Latent Factor)计算用户和物品的相似性。 SVD是将矩阵A分解成以下形式 A=U∑VT 其中U和V均为单位正交阵,UUT=E, VVT=E, U称为左奇异矩阵,V称…
-
scikit-learn 和pandas 基于windows单机机器学习环境的搭建
很多朋友想学习机器学习,却苦于环境的搭建,这里给出windows上scikit-learn研究开发环境的搭建步骤。 python有2.x和3.x的版本之分,但是很多好的机器学习python库都不支持3.x,因此,推荐安装2.7版本的python。当前最新的python是2.7.12.链接如下: https://www.python.o…
-
机器学习研究与开发平台的选择
目前机器学习可以说是百花齐放阶段,不过如果要学习或者研究机器学习,进而用到生产环境,对平台,开发语言,机器学习库的选择就要费一番脑筋了。这里就我自己的机器学习经验做一个建议,仅供参考。 首先,对于平台选择的第一个问题是,你是要用于生产环境,也就是具体的产品中,还是仅仅是做研究学习用? 如果平台是要用于生产环境的话,接着有一个问题,就是…
-
基于机器学习的web异常检测
Web防火墙是信息安全的第一道防线。随着网络技术的快速更新,新的黑客技术也层出不穷,为传统规则防火墙带来了挑战。传统web入侵检测技术通过维护规则集对入侵访问进行拦截。一方面,硬规则在灵活的黑客面前,很容易被绕过,且基于以往知识的规则集难以应对0day攻击;另一方面,攻防对抗水涨船高,防守方规则的构造和维护门槛高、成本大。 基于机器学习技术的新一代web入侵…