chap9 现代循环神经网络(7) 束搜索
在 sec_seq2seq
中,我们逐个预测输出序列,直到预测序列中出现特定的序列结束词元“<eos>”。在
本节中,我们将首先介绍 贪心搜索(greedy search)策略,并探讨其存在的问题,然后对比其他替代策略:穷举搜索(exhaustive search)和束搜索(beam search)。
在正式介绍贪心搜索之前,让我们定义搜索问题。
\在任意时间步 ,解码器输出 的概率取决于时间步 之前的输出子序列 和对输入序列的信息进行编码得到的上下文变量 。
为了量化计算成本,用 表示输出词汇表,其中包含“<eos>”,所以这个词汇集合的基数 就是词汇表的大小。我们还将输出序列的最大词元数指定为 。因此,我们的目标是从所有 个可能的输出序列中寻找理想的输出。当然,对于所有输出序列,这些序列中包含的“<eos>”及其之后的部分将在实际输出中丢弃。
贪心搜索
对于输出序列的任何时间步 ,我们都将基于贪心搜索从 中找到具有最高条件概率的词元,即:
一旦输出序列包含了“<eos>”或者达到其最大长度 ,则输出完成。
问题
现实中,最优序列(optimal sequence)应该是最大化 值的输出序列,这是基于输入序列生成输出序列的条件概率。不幸的是,无法保证通过贪心搜索得到的是最优序列。
穷举搜索
如果目标是获得最优序列,我们可以考虑使用 穷举搜索(exhaustive search):穷举地列举所有可能的输出序列及其条件概率,然后输出条件概率最高的一个。
虽然我们可以使用穷举搜索来获得最优序列,但其计算量 可能高的过分。
例如,当 和 时,我们需要评估 序列,这几乎是不可能的!
另一方面,贪心搜索的计算量是 :通常它要显著地小于穷举搜索。例如,当 和 时,我们只需要评估 个序列。
束搜索
那么该选取哪种序列搜索策略呢?如果只有正确性最重要,则显然是穷举搜索。如果计算成本最重要,则显然是贪心搜索。
而束搜索的实际应用则介于这两个极端之间。
束搜索(beam search)是贪心搜索的一个改进版本。
它有一个超参数,名为 束宽(beam size)。
在时间步 ,我们选择具有最高条件概率的 个词元。这 个词元将分别是 个候选输出序列的第一个词元。
在随后的每个时间步,基于上一时间步的 个候选输出序列,我们将继续从 个可能的选择中挑出具有最高条件概率的 个候选输出序列。
是从所有结果中选两个最大的,而不是平行筛选。
得最终候选输出序列集合后,我们选择以下得分最高的序列作为输出序列:
:eqlabel:eq_beam-search-score
其中 是最终候选序列的长度, 通常设置为 。因为一个较长的序列在 :eqref:eq_beam-search-score
的求和中会有更多的对数项,因此分母中的 用于惩罚长序列。
束搜索的计算量为 ,这个结果介于贪心搜索和穷举搜索之间。实际上,贪心搜索可以看作是一种束宽为 的特殊类型的束搜索。通过灵活地选择束宽,束搜索可以在正确率和计算成本之间进行权衡。
小结
- 序列搜索策略包括贪心搜索、穷举搜索和束搜索。
- 束搜索通过灵活选择束宽,在正确率和计算成本之间找到平衡。