《机器翻译统计建模与深度学习方法》 __肖桐学习第二天【机器翻译基础】

2023年4月11日下午9:47 • 深度学习

1、董振东先生对机器翻译方法的评价：基于规则和实例的机器翻译是傻子（依赖一定人工，在匹配规则和模板的情况下翻译质量高，但是系统泛华能力有限），统计和神经机器翻译是疯子（只依赖数据，系统健硕性强，但是精度不稳定且翻译过程难以人工干预）。

2、翻译质量评价：

　　有参考答案的评价：在参考答案或者评价标准已知的情况下对译文进行打分；

　　无参考答案的评价：在没有人工评价和参考答案的情况下，对译文进行质量“预测”。

3、翻译质量评价：

　　人工评价；

　　自动评价；评价指标：BLEU（Bilingual Evaluation Understudy）、TER（Translation Edit Rate）、WER、PER、（一般BLEU与TER搭配使用，如使用BLEU与TER相减后的值作为评价指标）、基于监测点的评价。

　　BLEU优点：简单、高效、可重复、不依赖人工评价、引入n-gram的匹配、截断计数和短句惩罚；

　　　　缺点：依赖参考译文、评价结果与人工评价不一致；

　　TER优点：（没找到）

　　BLEU、TER的共同缺点：缺乏对具体问题的细致评价；

　　基于检测点的评价优点：对MT系统个给出一个总体评价的同事，针对系统在各个具体问题上的翻译能力进行评估，便于比较不同翻译模型的性能；是对BLEU等评价指标的一种很好的补充。

4、机器翻译应用：网页翻译、科技文献翻译、视频字幕翻译、社交、同声传译、医药领域翻译、中国传统语言文化的翻译、全球化、翻译机、翻译结果后编辑。

5、常用数据集：CCMT（全国机器翻译大会）、WMT、NIST、IWSLT、WAT、NTCIR。

6、学习资源：《Statistical Machine Translation》、《Foundations of Statistical Natural Language Processing》、《统计自然语言处理》、《Deep Learning》（Ian Goodfellow）、《Neural Network Methods for Natural Language Processing》、《机器学习》、《统计学习方法》、《神经网络与深度学习》；

　　TensorFlow 官网提供了一个有关神经机器翻译的教程，介绍了从数据处理开始如何利用TensorFlow 工具从零搭建一个神经机器翻译系统以及如何解码，其地址为https://www.tensorflow.org/tutorials/text/nmt_with_attention。此外谷歌和Facebook 也分别提供了基于序列到序列机器翻译模型的高级教程。谷歌的版本是基于TensorFlow 实现，网址为：https://github.com/tensorflow/nmt，Facebook的教程主要是基于PyTorch 实现，网址为：https://pytorch.org/tutorials/intermediate/seq2seq_translation_tutorial.html。网站上也包含一些综述论文，其中详细的介绍了神经机器翻译的发展历程，问题定义以及目前遇到的问题。

7、机器翻译的会议论文：主要看ACL，EMNLP，NAACL，COLING和期刊CL，TACL

本站文章如无特殊说明，均为本站原创，如若转载，请注明出处：《机器翻译统计建模与深度学习方法》 __肖桐学习第二天【机器翻译基础】 - Python技术站