机器学习
-
机器学习(公式推导与代码实现)–sklearn机器学习库
一.scikit-learn概述 1.sklearn模型 sklearn全称是scikit-learn,它是一个基于Python的机器学习类库,主要建立在NumPy、Pandas、SciPy和Matplotlib等类库之上,基本上覆盖了常见了分类、回归、聚类、降维、模型选择和预处理模块。 2.sklearn源码 下图是sklearn在GitHub上的源代…
-
联邦学习:联邦场景下的多源知识图谱嵌入
在实际应用中我们常常面临一系列来自不同数据持有方的知识图谱,我们将其称为多源知识图谱(Multi-Source KG)。按照数据异构程度可分为两种形式,第一种类型中各知识图谱的领域(domain)相同,比如都是来自不同银行的用户知识图谱。这些知识图谱中也可能有实体重叠(overlapped),因为在日常生活中,一个用户很可能在不同银行都产生有相关的数据(元组…
-
【机器学习基础】——另一个视角解释SVM
SVM的另一种解释 前面已经较为详细地对SVM进行了推导,前面有提到SVM可以利用梯度下降来进行求解,但并未进行详细的解释,本节主要从另一个视角对SVM进行解释,首先先回顾之前有关SVM的有关内容,然后从机器学习的三步走的角度去对SVM进行一个解释。 那么对于传统的机器学习,每个方法最大区别就是损失函数的选取,因此SVM可以看成是另一种损失函数的方法,这种损…
-
【机器学习基础】无监督学习(5)——生成模型
前面无监督学习主要针对的是一种“降维”的学习任务,将数据降维到另一个能够表达数据含义的某种空间中,本节主要是无监督学习中的另一个任务——生成进行介绍。 生成模型 0.生成模型介绍 通常生成模型是指学习样本数据的分布,可以生成一些新的数据,是相对于判别模型而言的,并不特指有监督学习和无监督学习,比如朴素贝叶斯模型就是一种生成模型。 在这里生成模型主要指的是无监…
-
【机器学习的数学01】可数集与不可数集
可数集与不可数集 本文为基于 “《机器学习的数学》- 第1章 一元函数微积分 – 1.1 极限与连续 – 1.1.1 可数集与不可数集” 的学习笔记 知识脉络梳理 本节的重点在于理解可数与不可数的概念,它们将用于定积分中函数的可积性,以及概率论中的离散型与连续型随机变量等重要概念中。 可数集是在“集合等势”概念的基础上进行定义的,因此要理解可数与不可数首先要…
-
【机器学习】支持向量机分类
前言 支持向量机是一类按监督学习方式对数据进行二元分类的广义线性分类器,其决策边界是对学习样本求解的最大边距超平面。SVM尝试寻找一个最优决策边界,使距离两个类别最近的样本最远。SVM使用铰链损失函数计算经验风险并在求解系统中加入了正则化项以优化结构风险,是一个具有稀疏性和稳健性的分类器 。SVM可以通过核方法(kernel method)进行非线性分类,是…
-
机器学习 | 强化学习(8) | 探索与开发(Exploration and Exploitation)
1.导论 探索与开发二难问题 基于决策的决策过程存在以下两种选择 开发:基于目前的学习做最优的决策 探索:获取更多的学习 最佳的长期策略或许会包含一些短期的牺牲 获取足够的信息更能得到最为全面的决策 探索的方案(Approach to Exploration) 随机探索(Randon exploration) 通过随机动作进行探索(如\(\epsilon-G…
-
如何评价Petuum分布式机器学习系统?
机器学习算法和计算机领域的其他算法相比,有自己的一些独特特点, (1)迭代性:模型的更新并非一次完成,需要循环迭代多次; (2)容错性:即使在每个循环中产生一些错误,模型最终的收敛不受影响; (3)参数收敛的非均匀性:模型中有些参数经过几个循环便不再改变,其他参数需要很长时间收敛。 这些特点决定了分布式机器学习系统的设计和其他分布式计算系统(例如Spark…
-
机器学习建议(转)
机器学习说简单就简单,说难就难,但如果一个人不够聪明的话,他大概很难知道机器学习哪里难。基本上要学习机器学习,先修课程是algebra, calculus, probability theory, linear regression。这几门科学好了再学Machine learning是事半功倍的。此外近代数学的东西也要懂, functional analys…
-
如何提高分布式机器学习系统的执行效率?
翻译自http://weibo.com/p/1001603913581535062112,作者是CMU邢波教授的高徒。 目前有很多开源的分布式机器学习和深度学习系统,例如DMLC,Spark,MLlib,Petuum,parameter server,Caffe,Torch,Theano和TensorFlow等等。然而,如何在集群上高效的执行分布式机器学…