论文:https://arxiv.org/pdf/1705.03122.pdf

译文:利用卷积进行序列到序列学习

摘要

序列到序列学习的流行方法是,利用循环神经网络把一个输入序列映射到一个可变长度的输出序列。我们提出一种完全基于卷积神经网络的架构。相比RNN,训练可以完全并行,因此可以更好地利用GPU的算力,另外,优化也更容易,因为输入长度的非线性个数是固定而且独立的(注:这是什么意思?)。我们使用门线性单元来简化梯度传播,而且为每个解码器层各自添加一个注意力模块(注:这要好好理解)。我们的模型,在WMT’14 English-German和WMT’14 English-French翻译任务上,比deep LSTM的准确率高,而且速度也快一个数量级,无论是GPU还是CPU。 

介绍

序列到序列学习在很多任务上都取得了成功,例如机器翻译、语音识别和文本总结等等。目前的方法是,利用一系列双向RNN来编码输入序列,然后利用另外一组解码器RNN来生成一个可变长的输出。 

结论