Author:Junliang Guo, Zhirui Zhang, Linli Xu, Hao-Ran Wei, Boxing Chen, Enhong Chen
paper
Introduction
预训练模型 bert 在自然语言处理任务上应用广泛,譬如阅读理解,文本分类等。但是目前还不能很好的应用在基于 seq2seq 框架的神经网络机器翻译(NMT)。
本文认为主要存在下列三个问题:
-
encoder 端 - 灾难性遗忘:如果用 bert 来初始化 encoder 的输入再fine-tuning(Incorporating BERT into Neural Machine Translation),翻译效果并不好。模型会忘记老数据的表征。
-
decoder 端 - bert 是条件独立的模型,但是 NMT 是非条件独立的。bert 用非自回归编码,NMT 用自回归编码。
-
预训练模型的参数规模过大,微调不适用于小规模样本,它对学习率和模型参数不鲁棒。