机器学习 Archives - Page 13 of 72

机器学习-随机性、概率论、多元统计、特征间的相关性

机器学习-随机性、概率论、多元统计、特征间的相关性随机性洛伦兹动力学方程：美国气象学家洛伦兹建立了一个描述大气对流状况的数学模型。洛伦兹动力学方程描绘出的运动轨迹具有一种奇特的形状，像一只展开了双翼的蝴蝶，所以又称为蝴蝶效应。在这个蝴蝶上，确定性和随机性被统一在一起：一方面，运动的轨迹必然落在蝴蝶上，绝不会离它们而去，这是确定性的表现，表明系统未来的…

机器学习 2023年4月13日

000

机器学习-决策树-ID3决策树

原理看上一篇，这篇只有代码实现它以信息熵为度量标准，划分出决策树特征节点，每次优先选取信息量最多的属性，也就是使信息熵变为最小的属性，以构造一颗信息熵下降最快的决策树。缺点 ID3算法的节点划分度量标准采用的是信息增益，信息增益偏向于选择特征值个数较多的特征。而取值个数较多的特征并不一定是最优的特征，所以需要改进选择属性的节点划分度量标准 ID3算法递归…

机器学习 2023年4月13日

000

机器学习-各距离定义

机器学习-各类距离的定义两个向量之间的距离（此时向量作为n维坐标系中的点）计算，在数学上称为向量的距离（distance），也称为样本之间的相似性度量（Similarity Measurement）它反映为某类事物在距离上接近或远离的程度。直觉上，距离越近的就越相似，越容易归为一类；距离越远就越不同。范数向量的范数可以简单、形象地理解为向量的长度，…

机器学习 2023年4月13日

000

机器学习-决策树-C4.5决策树

针对ID3算法存在的一些问题，1993年，Quinlan将ID3算法改进为C4.5算法。该算法成功地解决了ID3算法遇到的诸多问题，发展成为机器学习的十大算法之一。 C4.5并没有改变ID3的算法逻辑，基本的程序结构仍与ID3相同，但在节点的划分标准上做了改进。C4.5使用信息增益率（GainRatio）来替代信息增益（Gain）进行特征的选择，克服了信息增…

机器学习 2023年4月13日

000

机器学习-文本分类实例-朴素贝叶斯

1.准备训练样本使用的复旦大学文本分类样本数据 2.训练模型 3.准备测试数据 4.分类训练模型 import os import jieba #Bunch类 from sklearn.datasets.base import Bunch import pickle from sklearn import feature_extraction from …

机器学习 2023年4月13日

000

机器学习-二分KMeans

由于传统的KMeans算法的聚类结果容易受到初始聚类中心点选择的影响，因此在传统的KMeans算法的基础上进行算法改进，对初始中心点选取比较严格，各中心点的距离较远，这就避免了初始聚类中心会选到一个类上，一定程度上克服了算法限入局部最优状态。二分KMeans(Bisecting KMeans)算法的主要思想是：首先将所有点作为一个簇，然后将该簇一分为二。之…

机器学习 2023年4月13日

000

机器学习-SVD(隐语义模型)协同过滤

SVD(隐语义模型)协同过滤隐语义模型，数学上称为SVD，奇异值分解。该算法最早在文本挖掘领域被提出，用于找到文章的隐含主题，也被称为主题模型。隐语义模型的核心思想是通过隐含特征（Latent Factor）计算用户和物品的相似性。 SVD是将矩阵A分解成以下形式 A=U∑VT 其中U和V均为单位正交阵，UUT=E, VVT=E, U称为左奇异矩阵，V称…

机器学习 2023年4月13日

000

scikit-learn 和pandas 基于windows单机机器学习环境的搭建

　　　　很多朋友想学习机器学习，却苦于环境的搭建，这里给出windows上scikit-learn研究开发环境的搭建步骤。　　　　python有2.x和3.x的版本之分，但是很多好的机器学习python库都不支持3.x，因此，推荐安装2.7版本的python。当前最新的python是2.7.12.链接如下：　　　　https://www.python.o…

机器学习 2023年4月13日

000

机器学习研究与开发平台的选择

　　　　目前机器学习可以说是百花齐放阶段，不过如果要学习或者研究机器学习，进而用到生产环境，对平台，开发语言，机器学习库的选择就要费一番脑筋了。这里就我自己的机器学习经验做一个建议，仅供参考。　　　　首先，对于平台选择的第一个问题是，你是要用于生产环境，也就是具体的产品中,还是仅仅是做研究学习用？　　　　如果平台是要用于生产环境的话，接着有一个问题，就是…

机器学习 2023年4月13日

000

基于机器学习的web异常检测

Web防火墙是信息安全的第一道防线。随着网络技术的快速更新，新的黑客技术也层出不穷，为传统规则防火墙带来了挑战。传统web入侵检测技术通过维护规则集对入侵访问进行拦截。一方面，硬规则在灵活的黑客面前，很容易被绕过，且基于以往知识的规则集难以应对0day攻击；另一方面，攻防对抗水涨船高，防守方规则的构造和维护门槛高、成本大。基于机器学习技术的新一代web入侵…

机器学习 2023年4月13日

000