
使用
RNN
和注意力机制进行自然语言处理
|
481
◆
编码器的多头注意力(Multi-Head Attention)层对同一句子中每个单词与其他单
词之间的关系进行编码,更加关注最相关的单词。例如,句子“ They welcomed
the Queen of the United Kingdom”中的“ Queen”单词的这一层的输出取决于
句子中的所有词,它可能会更关注“ United”和“ Kingdom”,而不是“ They”
或“ welcomed”。这个注意力机制被称为“自我注意力”(句子关注自身)。我
们稍后将详细讨论它是如何工作的。解码器的掩码多头注意力(Masked Multi-
Head Attention)层执行相同的操作,但是每个单词只能被允许关注位于其前面
的单词。最后,解码器的多头注意力层上部是解码器关注输入句子中单词的地
方。例如,当解码器要输出这个单词的翻译时,解码器可能会密切注意输入句
子中的单词“Queen”。
◆
位置嵌入只是表示单词在句子中的位置的密集向量(很像词嵌入一样)。第 n 个
位置嵌入被添加到每个句子中的第 n 个单词的词嵌入中。这使模型可以访问每
个单词的位置,这是必需的,因为“多头注意力”层不考虑单词的顺序或位置,
只看它们的关系。由于所有其他层都是由于时间分布的,它们无法知道每个单词
的位置(无论是相对还是绝对的)。显然,相对和绝对的词位置很重要,我们需要
以某种方式将此信息提供给 Transformer,而位置嵌入是实现此目的的好方法。
让我们再看一下 ...