Skip to Content
机器学习实战:基于Scikit-Learn、Keras 和TensorFlow (原书第2 版)
book

机器学习实战:基于Scikit-Learn、Keras 和TensorFlow (原书第2 版)

by Aurélien Géron
October 2020
Intermediate to advanced
693 pages
16h 26m
Chinese
China Machine Press
Content preview from 机器学习实战:基于Scikit-Learn、Keras 和TensorFlow (原书第2 版)
使用
RNN
和注意力机制进行自然语言处理
481
编码器的多头注意力(Multi-Head Attention)层对同一句子中每个单词与其他单
词之间的关系进行编码,更加关注最相关的单词。例如,句子“ They welcomed
the Queen of the United Kingdom”中的“ Queen”单词的这一层的输出取决于
句子中的所有词,它可能会更关注“ United”和“ Kingdom”,而不是“ They
或“ welcomed”。这个注意力机制被称为“自我注意力”(句子关注自身)。我
们稍后将详细讨论它是如何工作的。解码器的掩码多头注意力(Masked Multi-
Head Attention)层执行相同的操作,但是每个单词只能被允许关注位于其前面
的单词。最后,解码器的多头注意力层上部是解码器关注输入句子中单词的地
方。例如,当解码器要输出这个单词的翻译时,解码器可能会密切注意输入句
子中的单词“Queen”。
位置嵌入只是表示单词在句子中的位置的密集向量(很像词嵌入一样)。第 n
位置嵌入被添加到每个句子中的第 n 个单词的词嵌入中。这使模型可以访问每
个单词的位置,这是必需的,因为“多头注意力”层不考虑单词的顺序或位置,
只看它们的关系。由于所有其他层都是由于时间分布的,它们无法知道每个单词
的位置(无论是相对还是绝对的)。显然,相对和绝对的词位置很重要,我们需要
以某种方式将此信息提供给 Transformer,而位置嵌入是实现此目的的好方法。
让我们再看一下 ...
Become an O’Reilly member and get unlimited access to this title plus top books and audiobooks from O’Reilly and nearly 200 top publishers, thousands of courses curated by job role, 150+ live events each month,
and much more.
Start your free trial

You might also like

算法技术手册(原书第2 版)

算法技术手册(原书第2 版)

George T.Heineman, Gary Pollice, Stanley Selkow
Go语言编程

Go语言编程

威廉·肯尼迪
管理Kubernetes

管理Kubernetes

Brendan Burns, Craig Tracey

Publisher Resources

ISBN: 9787111665977