Pytorch学习笔记17—-Attention机制的原理与softmax函数

2023年4月8日下午2:30 • PyTorch

1.Attention（注意力机制）

上图中，输入序列上是“机器学习”，因此Encoder中的h1、h2、h3、h4分别代表“机","器","学","习”的信息，在翻译"macine"时，第一个上下文向量C1应该和"机","器"两个字最相关，所以对应的权重a比较大，在翻译"learning"时，第二个上下文向量C2应该和"学","习"两个字最相关，所以"学","习"对应的权重a比较大。

a其实是一个0-1之间的值，a可以看成是e的softmax后的结果。

Pytorch学习笔记17----Attention机制的原理与softmax函数

那现在关于attention来说就只剩下一个问题了，就是e是怎么来的。关于e的计算，业界有很多种方法，常用的有以下三种方式:

Pytorch学习笔记17----Attention机制的原理与softmax函数

(1)计算Encoder的序列h与Decoder的序列h的余弦相似度.

(2)在1的基础上，乘上一个Wa，Wa是需要学习的参数，从学习到Encoder和Decoder的隐藏的打分e。

(3)设计一个前馈神经网络，前馈神经网络的输入是Encoder和Decoder的两个隐藏状态，Va、Wa都是需要学习的参数。

2.softmax函数

softmax用于多分类过程中，它将多个神经元的输出，映射到（0,1）区间内，可以看成概率来理解，从而来进行多分类！

假设我们有一个数组，V，Vi表示V中的第i个元素，那么这个元素的softmax值就是

Pytorch学习笔记17----Attention机制的原理与softmax函数

更形象的如下图表示：

Pytorch学习笔记17----Attention机制的原理与softmax函数

softmax直白来说就是将原来输出是3,1,-3通过softmax函数一作用，就映射成为(0,1)的值，而这些值的累和为1（满足概率的性质），那么我们就可以将它理解成概率，在最后选取输出结点的时候，我们就可以选取概率最大（也就是值对应最大的）结点，作为我们的预测目标！

参考文献：

https://zhuanlan.zhihu.com/p/52119092

https://www.zhihu.com/question/23765351/answer/240869755

本站文章如无特殊说明，均为本站原创，如若转载，请注明出处：Pytorch学习笔记17—-Attention机制的原理与softmax函数 - Python技术站

pytorch 人工智能

赞 (0)

微信扫一扫

微信扫一扫

支付宝扫一扫

支付宝扫一扫

【Pytorch】关于torch.matmul和torch.bmm的输出tensor数值不一致问题

上一篇 2023年4月8日

Pytorch学习笔记14—-torch中相关函数使用：view函数、max()函数、squeeze()函数

下一篇 2023年4月8日

Pytorch GPU显存充足却显示out of memory的解决方式

当我们在使用PyTorch进行深度学习训练时，经常会遇到GPU显存充足却显示out of memory的问题。这个问题的原因是PyTorch默认会占用所有可用的GPU显存，而在训练过程中，显存的使用可能会超出我们的预期。本文将提供一个详细的攻略，介绍如何解决PyTorch GPU显存充足却显示out of memory的问题，并提供两个示例说明。 1. 使用…

PyTorch 2023年5月15日
000
目标检测

【pytorch-ssd目标检测】测试自己创建的数据集

制作类似pascal voc格式的目标检测数据集：https://www.cnblogs.com/xiximayou/p/12546061.html 训练自己创建的数据集：https://www.cnblogs.com/xiximayou/p/12546556.html 验证自己创建的数据集：https://www.cnblogs.com/xiximayou…

2023年4月6日
000
循环神经网络

《百面》-10.循环神经网络

1.循环神经网络和卷积神经网络问题1：处理文本数据时，循环神经网络与前馈神经网络相比有什么特点？答：nett=Uxt+Wht−1,hf=f(nett),y=g(VhT)net_t=Ux_t+Wh_{t-1},h_f=f(net_t),y=g(Vh_T)nett=Uxt+Wht−1,hf=f(nett),y=g(VhT)f,g为**函数，U为输…

2023年4月6日
000
关于转置卷积的一些资料收集

卷积与转置卷积的运算的示意图https://github.com/vdumoulin/conv_arithmetic#convolution-arithmetic 知乎如何理解转置卷积？https://www.zhihu.com/question/43609045 caffe中图片转换为矩阵图解，以及FCN实现语义分割的实现，希望能够进行实现一…

卷积神经网络 2023年4月6日
000
Caffe

如何用Caffe训练自己的网络-探索与试验

现在一直都是用Caffe在跑别人写好的网络，如何运行自定义的网络和图片，是接下来要学习的一点。参考 [1] ：http://www.cnblogs.com/denny402/p/5083300.html，下面几乎是全文转载，有部分对自己踩过的坑的补充，向原作者致敬！一、准备数据我去网上找了一些其它的图片来代替，共有500张图片，分为大巴车、恐龙、大…

2023年4月8日
000
pytorch中的squeeze函数、cat函数使用

PyTorch中的squeeze函数在PyTorch中，squeeze函数用于去除张量中维度为1的维度。下面是squeeze函数的语法： torch.squeeze(input, dim=None, out=None) 其中，input表示输入的张量，dim表示要去除的维度，out表示输出的张量。如果dim=None，则去除所有维度为1的维度。下面是一个…

PyTorch 2023年5月15日
000
卷积神经网络

深度拾遗(07) – 卷积层/池化层/全连接层

在卷积神经网络尚未火热的年代，人们使用haar/lbp + adaboost级连的组合方式检测人脸，hog+svm的组合方式检测行人。这种传统的目标检测方法一个认知上的优势就是: 模块的功能明确，划分得很清晰，符合人们的理解方式。其中，haar，lbp，hog等手工设计的特征提取算子用于提取特征，adaboost，svm用于对提取的特征分类。而早期的全连接神…

2023年4月6日
000
Keras文本预处理详解

汇总 Tokenizer分词器（类） Tokenizer.fit_on_texts分词器方法：实现分词 Tokenizer.texts_to_sequences分词器方法：输出向量序列 pad_sequences进行padding 具体示例和代码分析分词器分词和向量化主要的类是Tokenizer，用到其中的一些方法将文本转换为序列。需要注意的是这个类的一…

Keras 2023年4月6日
000

合作推广

合作推广

返回顶部