斯坦福大学深度学习与自然语言处理第二讲词向量

2023年4月13日下午8:04 • 深度学习

斯坦福大学深度学习与自然语言处理第二讲：词向量

斯坦福大学在三月份开设了一门“深度学习与自然语言处理”的课程：CS224d: Deep Learning for Natural Language Processing，授课老师是青年才俊 Richard Socher，以下为相关的课程笔记。

第二讲：简单的词向量表示：word2vec, Glove(Simple Word Vector representations: word2vec, GloVe)

推荐阅读材料：

Paper1：[Distributed Representations of Words and Phrases and their Compositionality]]
Paper2：[Efficient Estimation of Word Representations in Vector Space]
第二讲Slides [slides]
第二讲视频 [video]

以下是第二讲的相关笔记，主要参考自课程的slides，视频和其他相关资料。

如何来表示一个词的意思（meaning)

英文单词Meaning的定义(来自于韦氏词典)

the idea that is represented by a word, phrase, etc.
the idea that a person wants to express by using words, signs, etc.
the idea that is expressed in a work of writing, art, etc.

在计算机中如何表示一个词的意思

通常使用类似Wordnet的这样的语义词典，包含有上位词（is-a)关系和同义词集
panda的上位词，来自于NLTK中wordnet接口的演示

good的同义词集

语义词典存在的问题

语义词典资源很棒但是可能在一些细微之处有缺失，例如这些同义词准确吗：adept, expert, good, practiced, proficient,skillful?
会错过一些新词，几乎不可能做到及时更新: wicked, badass, nifty, crack, ace, wizard, genius, ninjia
有一定的主观倾向
需要大量的人力物力
很难用来计算两个词语的相似度

One-hot Representation

传统的基于规则或基于统计的自然语义处理方法将单词看作一个原子符号：hotel, conference, walk
在向量空间的范畴里，这是一个1很多0的向量表示：[0,0,0,0,...,0,1,0,...,0,0,0]
维数：20K(speech)–50K(PTB)–500K(big vocab)–13M(Google 1T)
这就是"one-hot"表示，这种表示方法存在一个重要的问题就是“词汇鸿沟”现象：任意两个词之间都是孤立的。光从这两个向量中看不出两个词是否有关系:

Distributional similarity based representations

通过一个词语的上下文可以学到这个词语的很多知识

这是现代统计NLP很成功的一个观点

如何使用上下文来表示单词

答案：使用共现矩阵(Cooccurrence matrix)X

2个选择：全文还是窗口长度
word-document的共现矩阵最终会得到泛化的主题（例如体育类词汇会有相似的标记），这就是浅层语义分析(LSA, Latent Semantic Analysis)
窗口长度容易捕获语法（POS）和语义信息

基于窗口的共现矩阵：一个简单例子

窗口长度是1（一般是5-10）
对称（左右内容无关）
语料样例

I like deep learning.
I like NLP.
I enjoy flying

存在的问题

规模随着语料库词汇的增加而增加
非常高的维度：需要大量的存储
分类模型会遇到稀疏问题
模型不够健壮

解决方案：低维向量

idea: 将最重要的信息存储在固定的，低维度的向量里：密集向量（dense vector)
维数通常是25-1000
问题：如何降维？

方法1：SVD（奇异值分解）

对共现矩阵X进行奇异值分解

Python中简单的词向量SVD分解

语料：I like deep learning. I like NLP. I enjoy flying

打印U矩阵的前两列这也对应了最大的两个奇异值

用向量来定义单词的意思：

在相关的模型中，包括深度学习模型，一个单词常常用密集向量（dense vector)来表示

Hacks to X

功能词(the, he, has)过于频繁，对语法有很大影响，解决办法是降低使用或完全忽略功能词
延展窗口增加对临近词的计数
用皮尔逊相关系数代替计数，并置负数为0
+++

词向量中出现的一些有趣的语义Pattern

以下来自于:

An improved model of semantic similarity based on lexical co-occurence

使用SVD存在的问题

对于n*m矩阵来说计算的时间复杂度是o(mn^2) 当 n<m，当单词或者文档数以百万计时很糟糕< li="">
对于新词或者新的文档很难及时更新
相对于其他的DL模型，有着不同的学习框架

解决方案：直接学习低维度的词向量

一些方法：和本讲以及深度学习相关

Learning representations by back-propagating errors(Rumelhart et al.,1986)
A Neural Probabilistic Language Model(Bengio et al., 2003)
Natural Language Processing (almost) from Scratch(Collobert & Weston,2008)
word2vec(Mikolov et al. 2013)->本讲介绍

word2vec的主要思路

与一般的共现计数不同，word2vec主要来预测单词周边的单词
GloVe和word2vec的思路相似：GloVe: Global Vectors for Word Representation
比较容易且快速的融合新的句子和文档或者添加新的单词进入词汇表

word2vec的主要思路

预测一个窗口长度为c的窗口内每个单词的周边单词概率
目标函数：对于一个中心词，最大化周边任意单词的log概率

对于$p(w_{t+j}/w_t)$最简单的表达式是:
这里v和$v^'$分布是w的“输入”和“输出”向量表示（所以每个w都有两个向量表示）
这就是基本的“动态”逻辑回归（“dynamic” logistic regression）

代价/目标函数

我们的目标是优化（最大化或最小化）代价/目标函数
常用的方法：梯度下降

一个例子（来自于维基百科）: 寻找函数$f(x) = x^4 - 3x^3 + 2$的局部最小点，其导数是$f^'(x) = 4x^3 - 9x^2$
Python代码：

梯度的导数

白板（建议没有直接上课的同学看一下课程视频中的白板推导)
有用的公式

链式法则

word2vec中的线性关系

这类表示可以很好的对词语相似度进行编码

在嵌入空间里相似度的维度可以用向量的减法来进行类别测试

计数的方法 vs 直接预测

GloVe: 综合了两类方法的优点

训练更快
对于大规模语料算法的扩展性也很好
在小语料或者小向量上性能表现也很好

GloVe的效果

英文单词frog（青蛙）的最相近的词

Word Analogies（词类比）

对单词之间的线性关系进行测试（Mikolov et al.(2014))

Glove可视化一

Glove可视化二：Company-CEO

Glove可视化三：Superlatives

Word embedding matrix（词嵌入矩阵）

提前训练好的词嵌入矩阵

又称之为查询表(look-up table)

低维度词向量的优点

深度学习词向量的最大优势是什么？
可以将任何信息表征成词向量的形式然后通过神经网络进行传播

词向量将是之后章节的基础
我们所有的语义表示都将是向量形式
对于长的短语和句子也可以通过词向量的形式组合为更复杂的表示，以此来解决更复杂的任务-->下一讲

本站文章如无特殊说明，均为本站原创，如若转载，请注明出处：斯坦福大学深度学习与自然语言处理第二讲词向量 - Python技术站

赞 (0)

微信扫一扫

微信扫一扫

支付宝扫一扫

支付宝扫一扫

深度学习 Fine-tune 技巧总结

上一篇 2023年4月13日

斯坦福深度学习与nlp第四讲词窗口分类和神经网络

下一篇 2023年4月13日

深度学习-LSTM

目录前言神经网络的历史和背景循环神经网络的出现及其作用 LSTM在处理序列数据中的应用 LSTM的基本原理 LSTM的结构和原理遗忘门、输入门、输出门的作用 LSTM的训练方法代码 LSTM的改进 GRU Attention机制双向LSTM 总结 LSTM的优势和局限性前言神经网络的历史和背景神经网络是一种模拟人类神经系统的计算模型，它由大…

深度学习 2023年4月10日
000
深度学习Tensorflow应用框架（Google工程师）

首先在这里给大家分享Google工程师亲授 Tensorflow2.0－入门到进阶教程搜索887934385交流群，进入后下载资料工具安装包等。最后，感谢观看！ #!/usr/bin/env python3.6# -*- coding: utf-8 -*-#fetchimport tensorflow as tfimport numpy as npim…

深度学习 2023年4月15日
000
【转载】另一种（深度）学习：自我监督学习会是下一个重点导向吗？

转载地址： https://cloud.tencent.com/info/4d98965f9c6373715618099d79023bc4.html 本文原作者AI中国，原文链接http://ai.51cto.com/art/201812/588247.htm 作者：AI中国来源：今日头条 —————————-…

深度学习 2023年4月13日
000
深度学习

深度学习之Transformer网络

【博主使用的python版本：3.6.8】本次没有额外的资料下载 Packages ort tensorflow as tf import pandas as pd import time import numpy as np import matplotlib.pyplot as plt from tensorflow.keras.layers impo…

2023年4月10日
000
2-9 什么是端到端的深度学习？

端到端学习到底是什么呢？简而言之，以前有一些数据处理系统或者学习系统，它们需要多个阶段的处理。那么端到端深度学习就是忽略所有这些不同的阶段，用单个神经网络代替它。以语音识别为例，你的目标是输入x，比如说一段音频，然后把它映射到一个输出y，就是这段音频的听写文本。所以和这种有很多阶段的流水线相比，端到端深度学习做的是，你训练一个巨大的神经网络，输入就是一段…

深度学习 2023年4月13日
000
Ubuntu18.04下配置深度学习开发环境

在Ubuntu18.04下配置深度学习/机器学习开发环境 1、下载并安装Anaconda 　　下载地址：https://www.anaconda.com/distribution/#linux 　　安装步骤：　　　　1）在下载的anaconda路径下打开终端执行命令：　　　　　　bash ~/Downloads/Anaconda3-5.2.0-Linux…

深度学习 2023年4月10日
000
神经网络与深度学习[邱锡鹏] 第二章习题解析

视角1：一般平方损失函数的公式如下图所示： h表示的是你的预测结果，y表示对应的标签，J就可以理解为用二范数的方式将预测和标签的差距表示出来，模型学习的过程就是优化权重参数，使得J达到近似最小值。理论上这个损失函数是很有效果的，但是在实践中却又些问题。它这个h是激活函数激活后的结果，激活函数通常是非线性函数，例如sigmoid之类的，这就使得这个J的曲线变得…

深度学习 2023年4月11日
000
深度学习的下一个大热门——Swift

来源商业新知网，原标题：为什么Swift会是深度学习的下一个大热门？如果你喜欢编程，当你听到Swift，你可能会想到iOS或MacOS的应用程序开发。如果你正在进行深度学习，那么你一定听说过Swift for Tensorflow(缩写为S4TF)。然后，你可以问自己:“为什么谷歌要为Swift创建一个TensorFlow版本?”Python和c++已…

深度学习 2023年4月11日
000

合作推广

合作推广

返回顶部