book

机器学习实战：基于Scikit-Learn、Keras 和TensorFlow （原书第2 版）

October 2020

Intermediate to advanced

693 pages

16h 26m

Chinese

Read now

Unlock full access

使用

RNN

和注意力机制进行自然语言处理

｜

481

◆

编码器的多头注意力（Multi-Head Attention）层对同一句子中每个单词与其他单

词之间的关系进行编码，更加关注最相关的单词。例如，句子“ They welcomed

the Queen of the United Kingdom”中的“ Queen”单词的这一层的输出取决于

句子中的所有词，它可能会更关注“ United”和“ Kingdom”，而不是“ They”

或“ welcomed”。这个注意力机制被称为“自我注意力”（句子关注自身）。我

们稍后将详细讨论它是如何工作的。解码器的掩码多头注意力（Masked Multi-

Head Attention）层执行相同的操作，但是每个单词只能被允许关注位于其前面

的单词。最后，解码器的多头注意力层上部是解码器关注输入句子中单词的地

方。例如，当解码器要输出这个单词的翻译时，解码器可能会密切注意输入句

子中的单词“Queen”。

◆

位置嵌入只是表示单词在句子中的位置的密集向量（很像词嵌入一样）。第 n 个

位置嵌入被添加到每个句子中的第 n 个单词的词嵌入中。这使模型可以访问每

个单词的位置，这是必需的，因为“多头注意力”层不考虑单词的顺序或位置，

只看它们的关系。由于所有其他层都是由于时间分布的，它们无法知道每个单词

的位置（无论是相对还是绝对的）。显然，相对和绝对的词位置很重要，我们需要

以某种方式将此信息提供给 Transformer，而位置嵌入是实现此目的的好方法。

让我们再看一下 ...

George T.Heineman, Gary Pollice, Stanley Selkow

威廉·肯尼迪

Alex Petrov

Brendan Burns, Craig Tracey

ISBN: 9787111665977