机器学习
-
图数据挖掘:级联的概率模型和疾病传播
这篇博客我们来介绍基于概率的级联行为模型,这种模型更关注系统整体,不过缺少对个体行为动机的刻画。基于随机树的传染病模型是分支过程(branching processes)的一种变种。在这种模型中,一个病人可能接触d个其他人,对他们中的每一个都有概率q>0将其传染,接下来我们来看当d和q取何值时,流行病最终会消失(die out) 1 导引 在上一篇博客…
-
图数据挖掘:网络中的级联行为
我们现在来研究网络中的传播。事实上,在网络中存在许多从节点到节点级联的行为,就像传染病一样。这在不同领域中都有所体现,比如生物中的传染性疾病;信息技术中的级联故障与信息的传播;社会学中的谣言、新闻、新技术的传播以及虚拟市场。其中在信息技术中信息就会经由媒体来进行扩散(diffusion)。接下来我们看如何基于网络构建传播模型。以传染病为例,传染病会沿着网络的…
-
图数据挖掘:小世界网络模型和分散式搜索
哈佛大学心理学教授斯坦利·米尔格拉(Stanley Milgram)早在1967年就做过一次连锁实验,他将一些信件交给自愿的参加者,要求他们通过自己的熟人将信传到信封上指明的收信人手里。他发现,296封信件中有64封最终送到了目标人物手中。而在成功传递的信件中,平均只需要5次转发,就能够到达目标。也就是说,在社会网络中,任意两个人之间的“距离”是6。这就是所…
-
图数据挖掘(二):网络的常见度量属性
网络的度分布p(k)表示了一个随机选择的节点拥有度$k$的概率。我们设度为k的节点数目Nk =#nodes with degree k,除以节点数量N则可得到归一化后的概率质量分布 p(k) = Nk/N。图的路径(path)指一个节点序列,使得序列中的每个节点都链接到序列中的下一个节点,一个路径可以通过经过同一条边多次而和它自身相交。 1 度分布 网络的度…
-
图数据挖掘(一):网络的基本概念和表示方法
网络(network)是一些通过链接(links)连接起来的对象集合,它包含以下成分:对象:节点(nodes)/顶点(vertices), 用N表示;交互:链接(links)/边(edges),用E表示;对象和交互组成的系统我们就称为网络(或图,graph),用G(N,E)表示。 最近《复杂网络建模》这门课要考试了,正好也在跟Stanford的《CS224W…
-
AI带你省钱旅游!精准预测民宿房源价格!
本文基于Airbnb在大曼彻斯特地区的房源数据,构建机器学习模型,进行数据分析与挖掘建模,预测民宿房源的价格走势。当然,同样的方法模式也可以应用在国内平台。 ? 作者:韩信子@ShowMeAI? 数据分析实战系列:https://www.showmeai.tech/tutorials/40? 机器学习实战系列:https://www.showmeai.tec…
-
联邦学习:联邦异构知识图谱划分
在联邦场景下,C个知识图谱位于不同的客户端上。知识图谱拥的实体集合之间可能会存在重叠,而其关系集合和元组集合之间则不会重叠。我们联系一下现实场景看这是合理的,比如在不同客户端对应不同银行的情况下,由于不同银行都有着自己的业务流程,所以关系集合不重叠。本文我们来看具体在实验环节怎么去划分联邦异构知识图谱数据。 1 导引 我们在博客《联邦学习:联邦场景下的多源知…
-
机器学习服务文本识别能力演进,大幅提升识别准确率
文本识别技术(OCR)可以识别收据、名片、文档照片等含文字的图片,将其中的文本信息提取出来,代替了人工信息录入与检测等操作,降低了输入成本,快速、方便,提升产品的易用性。 随着技术的发展,OCR已经深入生活的诸多方面。交通场景下,主要用于车牌识别,便于停车场管理、智能交通、移动警务等;生活场景下,主要用于证照识别,便于提取身份证、银行卡、护照、结婚证、户口本…
-
机器学习实战-AdaBoost
本文主要讲解了adaboost的概念,原理,以及一个具体的实例手算的方式和使用adaboost代码实现的方式 1.概念 从若学习算法出发,反复学恶习得到一系列弱分类器(又称基本分类器),然后组合这些弱分类器构成一个强分类器。简单说就是假如有一堆数据data,不管是采用逻辑回归还是SVM算法对当前数据集通过分类器data进行分类,假如一些数据经过第一个分类器之…
-
知识图谱实体对齐3:无监督和自监督的方法
我们在前面介绍的都是有监督的知识图谱对齐方法,它们都需要需要已经对齐好的实体做为种子(锚点),但是在实际场景下可能并没有那么多种子给我们使用。为了解决这个问题,有许多无监督/自监督的知识图谱对齐方法被提出。其中包括基于GAN的方法,基于对比学习的方法等。他们在不需要事先给定锚点的情况下将来自不同知识图谱实体embeddings映射到一个统一的空间。 1 导引…