Incorporating BERT into Parallel Sequence Decoding with Adapters

Author:Junliang Guo, Zhirui Zhang, Linli Xu, Hao-Ran Wei, Boxing Chen, Enhong Chen
paper

Introduction

预训练模型 bert 在自然语言处理任务上应用广泛,譬如阅读理解,文本分类等。但是目前还不能很好的应用在基于 seq2seq 框架的神经网络机器翻译(NMT)。

本文认为主要存在下列三个问题:

  1. encoder 端 - 灾难性遗忘:如果用 bert 来初始化 encoder 的输入再fine-tuning(Incorporating BERT into Neural Machine Translation),翻译效果并不好。模型会忘记老数据的表征。

  2. decoder 端 - bert 是条件独立的模型,但是 NMT 是非条件独立的。bert 用非自回归编码,NMT 用自回归编码。

  3. 预训练模型的参数规模过大,微调不适用于小规模样本,它对学习率和模型参数不鲁棒。

阅读全文

chap10 注意力机制(Transformer)

layer norm 是对每个句子的全部字归一,batch norm 是全部句子的第 d 个字归一

chap10 注意力机制(自注意力)

自注意力机制有自己的一套选择 query 和 value 的方法。将词元序列输入注意力池化中,以便同一组词元同时充当查询、键和值。

具体来说,每个查询都会关注所有的键-值对并生成一个注意力输出。由于查询、键和值来自同一组输入,因此被称为 自注意力(self-attention)

阅读全文

chap10 注意力机制 (基础部分)

  • 卷积、全连接、池化层都只考虑不随意线索

  • 注意力机制则显示的考虑随意线索

    • 随意线索被称之为查询(query)

    • 每个输入是一个值(y: value)和不随意线索(x: key)对

      value 是 key 的价值

    • 通过注意力池化层来有偏向性的选择某些输入

阅读全文

chap9 现代循环神经网络(7) 束搜索

sec_seq2seq 中,我们逐个预测输出序列,直到预测序列中出现特定的序列结束词元“<eos>”。在
本节中,我们将首先介绍 贪心搜索(greedy search)策略,并探讨其存在的问题,然后对比其他替代策略:穷举搜索(exhaustive search)和束搜索(beam search)。

阅读全文

chap9 现代循环神经网络(6) seq2seq

机器翻译中的输入序列和输出序列都是长度可变的。 为了解决这类问题,我们在 (5)节中设计了一个通用的”编码器-解码器“结构。

在本节中,我们将使用两个循环神经网络来设计这个结构中的编码器和解码器,并将其应用于机器翻译的 序列到序列(sequence to sequence,seq2seq)学习

阅读全文

chap9 现代循环神经网络(5) 编码器-解码器架构

编码器(encoder):它接受一个长度可变的序列作为输入,并将其转换为具有固定形状的编码状态

解码器(decoder):它将固定形状的编码状态映射到长度可变的序列。

阅读全文

chap9 现代循环神经网络(4) 双向循环神经网络

在序列学习中,我们以往假设的目标是:到目前为止,在给定观测的情况下对下一个输出进行建模。例如,在时间序列的上下文中或在语言模型的上下文中。虽然这是一个典型的情况,但这并不是我们可能遇到的唯一情况。

为了说明这个问题,考虑以下三个在文本序列中填空的任务:

阅读全文

chap9 现代循环神经网络(2) LSTM

长期以来,隐变量模型存在着长期信息保存和短期输入跳跃的问题。解决这一问题的最早方法之一是长短期存储器(long short-term memory, LSTM) 。它有许多与门控循环单元一样的属性。

有趣的是,长短期记忆网络(LSTM)的设计比门控循环单元稍微复杂一些,却比门控循环单元(GRU)早诞生了近20年。

阅读全文