潜在语义分析(LSA)和 潜在狄利克雷分配 (LDA)简介

潜在语义分析(LSA)和 潜在狄利克雷分配 (LDA)简介

一位杰出的科学家曾经引用过成为自然语言处理基础的一句话:

“计算机非常快、准确和愚蠢;人类非常慢、不准确和聪明;他们在一起的力量超乎想象。” -爱因斯坦

尽管被称为最先进的自然语言处理 技术的新词嵌入技术能够在一个模型上执行多个 NLP 任务,但在这些模型出现并永远改变游戏规则之前,我们已经有了有效的信息检索方法和其他 NLP 问题,其中两种方法包括潜在语义分析(LSA)和潜在狄利克雷分配(LDA),这两种方法执行不同的任务并被广泛使用,LSA 于 2005 年推出,而 LDA 于 2003 年推出并成为一种在最强大的文本分类和摘要技术中,我们将详细讨论它的工作和应用。

潜在语义分析(LSA)

潜在语义分析是用于语义分析的自然语言处理技术之一,广义上是指我们试图借助统计的帮助从文本语料库中挖掘出一些意义,由 Jerome Bellegarde 于 2005 年提出。

LSA 基本上是一种我们从文本文档中识别模式的技术,或者简单地说,我们倾向于从文本文档中找出相关且重要的信息。如果说是有监督的方式还是无监督的方式,那显然是无监督的方式。

它是一种非常有助于矩阵降维或主题建模的技术,也称为潜在语义索引(LSI)。LSA 的主要概念和工作是将所有具有相似含义的词组合在一起。

那么它是怎样工作的?让我们看看:

LSA中词频/逆文档频率的意义

术语频率 定义为实例或关键字出现在单个文档中的次数除以该文档中的单词总数。

潜在语义分析(LSA)和 潜在狄利克雷分配 (LDA)简介

正如我们所知,文档的长度在每种情况下都不同,因此术语频率分别随着术语的出现而变化。

逆文档频率(IDF),表示该术语在文档集合中的重要性。IDF 计算文档集合中文本的稀有词项的权重。IDF 的公式为:

潜在语义分析(LSA)和 潜在狄利克雷分配 (LDA)简介

Tf/IDF在Latent Semantic Analysis中的主要思想是提供每个词的计数和稀有词的频率,以便根据它们的稀有性为它们提供权重,TF/IDF比传统的词出现计数更可取因为它只计算频率而没有分类。

在我们使用 TF/IDF 完成分类部分之后,我们倾向于进入下一步,即减少矩阵维度,因为通常有这么多特征,输入具有更高的维度,更高维度的输入很难理解和解释,所以为了以最大信息增益降低维度,我们有许多技术,包括奇异值分解(SVD)和主成分分析。让我们看看 SVD 在我们的第一步之后会做什么:-

潜在语义分析(LSA)和 潜在狄利克雷分配 (LDA)简介

奇异值分解是一种将矩阵从高到低分解的方法,它通常将矩阵分成三个矩阵。让我们将更高维度的输入矩阵mxb作为“A”,计算 SVD 我们将使用下面给出的公式:

A(mxb) = U(mxm)。σVT

这里,σ是大小为mxn的对角矩阵, VT 是nxn正交矩阵的转置。SVD 可以执行其他几项任务,但主要在降维方面仍然有效,它被机器学习开发人员广泛使用和接受。

无论何时执行 SVD,结果总是一流的,它可以将超过 150k 的参数或维度显着减少到可以理解的 50 到 70 个参数。完成以上两个任务,就完成了潜在语义分析的动机。

LSA 有很多应用可以执行,但它主要用于搜索引擎,因为它是一种非常有用的技术,例如,您搜索“运动”,结果还显示了板球和板球运动员,这是由于 LSA 被应用于搜索引擎。LSA 的其他可能应用是文本分析中的文档聚类、推荐系统和构建用户配置文件。

潜在狄利克雷分配 (LDA)

潜在狄利克雷分配 (LDA)使用Dirichlet分布,那么Dirichlet分布是什么?它是一种概率分布,但与包括均值和方差的正态分布有很大不同,与正态分布不同,它基本上是概率的总和,它们结合在一起并相加为 1。

它有不同的 K 值,k 的数量意味着所需的概率数,例如:

  • 0.6 + 0.4 = 1 (k=2)
  • 0.3 + 0.5 + 0.2 = 1 (k=3)
  • 0.4 + 0.2 + 0.3 + 0.1 = 1 (k=4)

所以我们可以将概率列为类别,这是它也被称为分类分布的主要原因之一。但是这个概率分布对这个方法有什么帮助呢?让我们来看看:

让我们用一句话来清楚地说明 LDA 到底做了什么:

  • 我喜欢板球。
  • Virat Kohli 是我最喜欢的板球运动员。
  • 山是那么美丽。
  • 我想参观喜马拉雅山。

上面是从不同文档中标记化的句子,现在 LDA 所做的是,它将形成集群或将句子 1 和 2 组合在一起,因为它们具有相同的上下文含义,并将 3 和 4 组合在一起以显示文档或句子之间的相似性。我希望你了解 LDA 背后的想法,现在快速开始它的工作:

潜在语义分析(LSA)和 潜在狄利克雷分配 (LDA)简介

  • Ω 是每个文档的主题分布
  • ψ 是文档 d 的分布
  • D 是文档中第 n 个词的主题
  • F是选择的特定词
  • Φ 是主题 t 的词分布
  • σ 是每个主题的概率

上面是LDA的工作,因为我们可以观察到所有概率都是Dirichlet分布,在执行LDA或其他文本摘要方法时,我们倾向于删除所有不相关的因素,有一种方法可以删除停用词,如“the”、“are”、“is”、“with”等。这些停用词对文档聚类没有价值,需要删除。

LDA 由David Blei、Andrew Ng和Michael I. Jordan于 2003 年提出,与 LSA 一样也是一种无监督学习。它还具有LDA2vec 模型,以便预测与 word2vec 相同的序列中的另一个词,因此它成为下一个词预测中的有效技术。

LDA的应用

  1. 在Gensim、VW 和 mallet的大量数据集上取得了惊人的结果,从而获得了很高的准确性。

  2. 寻找关联或区分场景的模式,或者一般而言,有助于在两个文档之间进行模式识别。

  3. 主题建模的大部分研究都是在 Dirichlet 分布的帮助下完成的,这也有助于开发一些新算法。

  4. 它的应用之一还包括网络分析,其中包括网络模式分析和分类网络混合分析。

虽然有很多NLP 技术可以在更大的数据集上表现得更好,但我个人认为对于初学者来说,传统的 NLP 方法更好,因为它们在较小的数据集上表现更好并且易于实现,所以所有初学者都应该尝试实施这些文本摘要技术,应该缓慢而优雅地向前推进。有关分析、机器学习、深度学习、人工智能、自然语言处理和新技术的更多博客,请阅读分析步骤。

本站文章如无特殊说明,均为本站原创,如若转载,请注明出处:潜在语义分析(LSA)和 潜在狄利克雷分配 (LDA)简介 - Python技术站

(0)
上一篇 2023年2月10日 下午11:19
下一篇 2023年2月11日 下午9:24

相关文章

  • (实战篇)从头开发基于深度学习的照片说明器!

    字幕生成是一个具有挑战性的人工智能问题,其中必须为给定的照片生成文本描述。 它既需要来自计算机视觉的方法来理解图像的内容,也需要来自自然语言处理领域的语言模型来将对图像的理解按正确的顺序转化为文字。最近,深度学习方法在这个问题的例子上取得了最先进的结果。 深度学习方法已经在字幕生成问题上展示了最先进的结果。这些方法最令人印象深刻的是,可以定义单个端到端模型来…

    2023年2月12日 NLP
    00
  • 自然语言处理:NLP工作原理与应用

    NLP(自然语言处理,英文名 Natural Language Processing)是一种从文本中查找信息的方法,使其能够像人类理解的一样,被机器理解。 众所周知,机器学习的目标是为机器提供类似人脑的能力。NLP 就是为了向机器提供与我们的人脑相同的能力,即能够理解文本和语音。 我们人类通过电子邮件、网页、应用程序等阅读了非常多的文本信息。如果机器能够理解…

    2023年2月10日 NLP
    00
  • 2023年最火爆的5 个NLP模型,ChatGPT也在用!

    自然语言处理 (NLP) 是 人工智能 最具影响力的领域之一,它已经催生了聊天机器人、语音助手、翻译器和大量其他日常实用工具等技术,最近火爆的 ChatGPT 就是基于自然语言处理相关算法搭建的! 其实,自然语言处理的研究在 1950 年代就已经开始了。最早的尝试是从俄语到英语的自动翻译,并为未来的研究奠定了基础。大约在同一时间,图灵测试也验证了机器可以发展…

    2023年2月11日
    00
  • 自然语言处理神经网络模型入门概述

    深度学习对自然语言处理领域产生了巨大影响。 但是,作为初学者,您从哪里开始? 深度学习和自然语言处理都是一个巨大的领域。每个领域需要关注的突出方面是什么,深度学习对NLP的哪些领域影响最大? 在这篇文章中,您将发现有关自然语言处理深度学习相关的入门知识。 阅读这篇文章后,您将知道: 对自然语言处理领域影响最大的神经网络架构。 可以通过深度学习成功解决的自然语…

    2023年2月12日
    00
  • (实战篇)使用Python清理机器学习的文本数据

    在自然语言处理(NLP)的过程中,我们不可能直接从原始文本转到拟合机器学习或深度学习模型,我们必须要首先清理文本,这意味着将其拆分为单词并处理标点符号和大小写。 事实上,您可能需要使用一整套文本准备方法,方法的选择实际上取决于您的自然语言处理任务。 在本教程中,您将了解如何清理和准备文本,以便使用机器学习进行建模。具体内容如下: 从如何通过开发自己的非常简单…

    2023年2月12日
    10
  • 用于NLP的7大免费数据集!

    在开始为自然语言处理任务进行深度学习时,您需要练习数据集。 最好使用可以快速下载的小型数据集,并且不会花费太长时间来拟合模型。此外,使用易于理解和广泛使用的标准数据集也很有帮助,这样您就可以比较您的结果以查看您是否正在取得进展。 在这篇文章中,您将发现一套用于自然语言处理任务的标准数据集,您可以在开始使用深度学习时使用它们。 概述 这篇文章分为7个部分,根据…

    2023年2月12日
    00
合作推广
合作推广
分享本页
返回顶部