
ルに組み込まれます。このため、固定位置埋め込みとも呼ばれます。
位置埋め込み層の出力を数式で表すと次のようになります。
E'
=
E
+
PE
ここで、
E
はテキスト埋め込みからの出力行列(各行がトークンの埋め込みベクトルを表
す )、
PE
は位置埋め込み行列です。この行列の各行はトークンの位置に対応し、埋め込みベク
トルに位置情報を加える役割を持っています。この加算により、Transformerはトークンの位
置情報を埋め込みベクトルに組み込むことが可能となります。
この位置埋め込み層の導入により、Transformerはシーケンスの順序を効果的に扱うことが
できるようになり、シーケンス内の各トークンがその位置に応じた独自の表現を持つことが可
能となります。これにより、同じ単語が異なる文脈や位置にある場合でも異なる埋め込みベク
トルを持つことができ、より精度の高い言語処理が行えるようになります。さらに、位置埋め
込みは線形的に加えられるため、埋め込みベクトルと位置埋め込みの関係性は維持され、
Transformerモデルが学習や推論を行う際には、これらの情報が相互に補強しあう形で処理さ
れます。このように、Transformerは埋め込みベクトルと位置埋め込みの使用により、単語の
意味とその文脈を同時に捉えられるように工夫がなされています。
1.3.4
デコーダスタック
デコーダスタックの構成を図1.3.8 に示します。デコーダスタックは、同じ構成を持つ複数
のデコーダ層から構成されています。デコーダ層の数は大規模言語モデルによって異なり、例 ...