Attention Networks with Keras（用Keras实现注意力网络）

注意：在这里可以找到一个带有示例代码的jupyter Python notebook：链接

在自然语言处理中最有趣的进步之一就是注意力网络的概念。已成功地用于翻译服务、医疗诊断和其他任务。
今天，我们将学习什么使注意力网络有效，为什么它是特殊的，以及背后的实现细节。

当使用本教程的时候，我假设你对神经网络有一定的了解。

传统的递归神经网络有一些明显的局限性。例如在编码-解码器网络布局中，很难以压缩格式记住整个输入。输入越长，学习就越困难。正如以前的研究表明，这种性能在输入长度大于30字的效果很差。

为了解决这个问题，我们使用有注意力机制网络。灵感来自人类的翻译机制。在翻译句子时，译者在翻译译文之前不会阅读整个文本。相反，他们只阅读部分文本，然后翻译一部分，重复这个过程直工作完成。换句话说，他们一次只关注一部分文本，这是注意力网络的关键思想。
在注意力网络中，每个输入是具有相应注意权重。如果输入与我们当前的工作相关，则为1，否则为0。这些注意力权重在输出后进行重新计算。这使得网络的注意力能随着时间推移而改变。
例如，考虑一个将英语句子翻译成西班牙语句子的注意网络。每个输出字取决于输入句子中的多个词，因为共轭、时态、标点等。在t＝0时，注意力网络会给“拥有”、“你”和“图书馆”分配高注意力权重。因为每一个词都影响第一个输出字“有”字。它会把低注意力权重分配给所有其他单词，达到忽略它们的目的。 Attention Networks with Keras（用Keras实现注意力网络）