对抗神经机器翻译：GAN＋NMT 模型，中国研究者显著提升机翻质量

2023年4月6日下午4:45 • GAN生成对抗网络

今天介绍的是中山大学、中国科技大学、微软亚洲研究院与广东省信息安全技术重点实验室合作完成的一项研究。

第一作者 Lijun Wu 来自中山大学数据与计算机科学学院，二作 Yingce Xia 是中国科技大学，Li Zhao、Fei Tian、Tao Qin 都属于微软亚洲研究院，Jianhuang Lai、Tie-Yan Liu 则是广东省信息安全技术重点实验室的研究人员。Jianhuang Lai 同时也属于中山大学数据与计算机科学学院。

作者认为，最新的 NMT 系统虽然相比以前的统计机器翻译（SMT）性能有了显著提升，但翻译质量还有很大的改进空间。作者认为，其中一个主要原因是 NMT 在训练时通常采用最大似然估计（MLE）原理，换句话说，也就是尽可能将机器生成的译文与人类对源语的翻译进行匹配（maximize the probability of the target groundtruth sentence conditioned on the source sentence）。

作者认为，这样做并不能确保机器翻译的结果比人类翻译的更自然、准确和到位。

对抗 NMT，将模型翻译结果与人类翻译的差距最小化

于是，他们在研究 NMT 的学习范式后，采取了一种新的思路——训练 NMT，让模型翻译结果与人类翻译的差距最小化。为此，他们借助了生成对抗网络（GAN）的力量，并将新模型命名为“对抗 NMT”（Adversarial-NMT）。

在对抗 NMT 中，除了典型的 NMT 模型，还有一个对手（adversary）用于区分 NMT 生成的翻译与人类翻译。这个对手是一个精心设计的 CNN。训练时，NMT 和作为对手的 CNN 这两个模块相互提升性能。

对抗神经机器翻译：GAN＋NMT 模型，中国研究者显著提升机翻质量

需要指出的是，作者写道，与以往 GAN 生成器都处于连续空间中不同，在他们提出这个新框架里，NMT 模型并非典型的生成模型，而是将源语言句子映射到目标语言句子的概率转换，而且都处于离散空间中。

这样的差异使得在训练 NMT 模型时需要设计新的网络架构和优化方法。于是，作者专门设计了一个卷积神经网络（CNN，如上图所示）模型作为对手，并将在强化学习中得到广泛应用的 REINFORCE 这一策略梯度方法用于优化。

对抗神经机器翻译：GAN＋NMT 模型，中国研究者显著提升机翻质量

上图展示了对抗 NMT 架构。“Ref”是 Reference 的缩写，代表人类的（ground-truth）翻译结果，“Hyp”则是 Hypothesis 的缩写，表示模型生成的翻译句子。所有黄色部分代表 NMT 模型 G，将源句子 x 映射为译文。红色部分代表对抗网络 D，负责预测给定目标句子是真实翻译还是机器根据源句 x 生成的翻译。G 和 D 相互对抗，生成翻译样本 y’ 训练 D，以及训练 G 的奖励信号策略下降（蓝色箭头表示）。

BLEU 基准测试结果，性能提升显著

下图是论文中给出的对抗 NMT 性能测试实例。

作者提供了 2 个德语→英语的例子，分为上下两栏。从上到下分别显示了德语源句 x、实际（也即人类的）翻译 y、RNNSearch 生成的翻译句子 y’，以及对抗 NMT 生成的翻译 y’。D（x，y’）是模型译文 y’是真实翻译 x 的概率，x 由对手 CNN 计算得出。BLEU 是每个翻译句子的单句翻译 bleu 得分。

对抗神经机器翻译：GAN＋NMT 模型，中国研究者显著提升机翻质量

下图是不同 NMT 系统在英语→法语之间翻译的性能。默认设置是单层 GRU + 30k 语料库（vocabs）+ 最大似然估计（MLE）训练对象，不是使用单语种数据训练，也即 Bahdanau 等人在 2014 年提出的 RNNSearch 模型。

对抗神经机器翻译：GAN＋NMT 模型，中国研究者显著提升机翻质量

下面是不同 NMT 系统在德语→英语之间翻译的性能。默认设置是使用 MLE 训练对象的单层 GRU 编码器-解码器模型，也即 Bahdanau 等人在 2014 年提出的 RNNSearch 模型。

对抗神经机器翻译：GAN＋NMT 模型，中国研究者显著提升机翻质量

论文：对抗神经机器翻译

对抗神经机器翻译：GAN＋NMT 模型，中国研究者显著提升机翻质量

摘要

在本文中，我们研究了神经机器翻译（NMT）的新学习范式。以往的研究都将人类翻译的可能性最大化，我们则将人类翻译与 NMT 模型给出的翻译的差异最大限度地减少。为了实现这个目标，受近来生成对抗网络（GAN）成功的启发，我们采用对抗训练架构，并将其命名为对抗 NMT。在对抗 NMT 中，NMT 模型的训练对手是一个精心设计的卷积神经网络（CNN）。这个对手 CNN 的目标是区分 NMT 模型生成的翻译结果与人类翻译结果。NMT 模型的目标则是生成高质量的翻译，从而骗过对手。我们还利用策略梯度法协助训练 NMT 模型和对手 CNN。实验结果表明，在英语→法语和德语→英语的翻译任务中，对抗 NMT 在几个强大的基准上都显著提升了翻译质量。

文章转自新智元公众号，原文链接

本站文章如无特殊说明，均为本站原创，如若转载，请注明出处：对抗神经机器翻译：GAN＋NMT 模型，中国研究者显著提升机翻质量 - Python技术站

GAN生成对抗网络人工智能

赞 (0)

微信扫一扫

微信扫一扫

支付宝扫一扫

支付宝扫一扫

生成对抗网络GAN系列（一）— Generative Adversarial Nets（原始GAN）— 文末附代码

上一篇 2023年4月6日下午4:36

通俗易懂！生成对抗网络GAN入门

下一篇 2023年4月6日下午4:45

GAN生成对抗网络

GAN生成式对抗网络（三）——mnist数据生成

引入包，数据约定等 import numpy as np import matplotlib.pyplot as plt import input_data #读取数据的一个工具文件，不影响理解 import tensorflow as tf # 获取数据 mnist = input_data.read_data_sets(‘data/’, one_hot=…

2023年4月5日
000
ubuntu14.04 安装caffe（亲测几次）

ubuntu14.04 安装caffe 主要参考博客： http://blog.csdn.net/reformatsky/article/details/73773439#t3 官网：http://caffe.berkeleyvision.org/ 安装步骤： 1 安装相关依赖项 1） sudo apt-get install libprotob…

Caffe 2023年4月8日
000
循环神经网络

《深度学习》：循环神经网络II

第8讲循环神经网络II–长程依赖问题–长短期记忆网络（LSTM）–门控循环神经网络（GRU）–深层循环神经网络–实验④（循环神经网络实验）布置文章目录 RNN的长时依赖问题长短时记忆网络（LSTM）深入了解LSTM结构具体原理 GRU GRU结构更新记忆阶段 LSTM和GRU的联系 RNN的作业布置参考文献 RNN的长时依赖问题首先回顾一下上…

2023年4月8日
000
PyTorch

pytorch index_select()函数

函数实现从当前张量中从某个维度选择一部分序号的张量 tensor.select_index(dim, index)对于一个二维张量feature：第一个参数参数0表示按行索引，1表示按列进行索引第二个参数是一个整数类型的一维tensor，就是索引的序号二维张量举例：三维张量举例：另一种使用方式： torch.select_index(tenso…

2023年4月6日
000
GAN生成对抗网络

【深度学习理论】通俗理解生成对抗网络GAN

作者 | 陈诚来源 | 机器学习算法与自然语言处理 ▌1. 引言自2014年Ian Goodfellow提出了GAN（Generative Adversarial Network）以来，对GAN的研究可谓如火如荼。各种GAN的变体不断涌现，下图是GAN相关论文的发表情况：大牛Yann LeCun甚至评价GAN为 “adversarial trainin…

2023年4月5日
000
循环神经网络

简述循环神经网络

RNN 可用于许多不同的地方。下面是 RNN 应用最多的领域。 1. 语言建模和文本生成给出一个词语序列，试着预测下一个词语的可能性。这在翻译任务中是很有用的，因为最有可能的句子将是可能性最高的单词组成的句子。 2. 机器翻译将文本内容从一种语言翻译成其他语言使用了一种或几种形式的 RNN。所有日常使用的实用系统都用了某种高级版本的 RNN。 3. 语音…

2023年4月8日
000
《机器学习》（西瓜书）笔记（3）–线性模型

第三章线性模型 3.1 基本形式线性模型（linear model）试图学得一个通过属性的线性组合来进行预测的函数，即一般用向量形式写成，其中 w 和 b 学得之后，模型就得以确定。 3.2 线性回归对离散属性的处理：若属性值间存在序关系，可通过连续化将其转化为连续值，例如二值属性“身高”的取值“高”“矮”可转化为 {1.0,…

机器学习 2023年4月11日
000
循环神经网络

跟我学神经网络4-循环神经网络

1. 关键词 BPTT 2. 简介人们在开始思考时，不是每次都从零开始。比如你读这篇文章，因为你曾经看过相似的文字，所以也能理解这里的文字。你不是从头开始学，你的知识是逐渐积累的。在多层感知器中隐含层之间依次次连接。当把隐含层折叠起来，就可以得到一个递归网络。如下图：公式表示： st=tanh(Uxt+Wst−1)ot=softmax(Vst)s_t=…

2023年4月8日
000

合作推广

合作推广

返回顶部