李宏毅ML-self attention PPT笔记

 

【深度学习】注意力机制  -  李宏毅PPT笔记

任务:

输入一个向量序列: [v1, v2, ......,vn]

输出一个相同长度的向量序列, 如词性标注

输出一个向量, 如情感分析

输出任意长度的向量序列, seq2seq

 

【深度学习】注意力机制  -  李宏毅PPT笔记

比如考虑序列标注问题, 不能孤立看一个个输入的向量, 而是要考虑整个序列。

self-attention考虑一整个输入序列后, 再输入到全连接层中

【深度学习】注意力机制  -  李宏毅PPT笔记

 

 可以交替使用self-attention layer和fully connected layer

self-attention layer处理整个序列, fully connected layer处理单个资讯

【深度学习】注意力机制  -  李宏毅PPT笔记

 

 自注意力机制学习输入的向量序列向量与向量之间的关系, 找到与某个向量相关的向量

【深度学习】注意力机制  -  李宏毅PPT笔记

 

 计算关联性的module如上两种, 以下用左边的例子

【深度学习】注意力机制  -  李宏毅PPT笔记

 

 【深度学习】注意力机制  -  李宏毅PPT笔记

 

 以下是计算的矩阵表示:

【深度学习】注意力机制  -  李宏毅PPT笔记

 

 【深度学习】注意力机制  -  李宏毅PPT笔记

 

 【深度学习】注意力机制  -  李宏毅PPT笔记

 

 【深度学习】注意力机制  -  李宏毅PPT笔记

 

【深度学习】注意力机制  -  李宏毅PPT笔记

 

多头自注意力机制也有广泛应用

 【深度学习】注意力机制  -  李宏毅PPT笔记

 

 有时需要考虑向量在序列的位置