
Transformerの仕組み
1.3
本節では、Transformerの仕組みについて説明します。TransformerはLLMの中核であり、
汎用性の高いモデルです。2017 年に発表されたオリジナルのTransformer は、エンコーダ・
デコーダアーキテクチャを採用していました。しかし、GPT-3以降の現在主流のLLMでは、
デコーダのみのTransformer が使用されることが一般的です。そこで、本節ではデコーダのみ
のTransformer に焦点を当てて説明します。
Transformerは、ニューラルネットワークを基盤としています。ニューラルネットワーク
は、複数の層(レイヤ)から構成されるモデルです。深いネットワーク、つまり多くの層を持
つネットワークを用いる学習手法を特にディープラーニングと呼びます。Transformerも多層
構造を持つため、ディープラーニングモデルの一つとして分類されます。
以下本節では、まずはTransformer の構成について説明し、次にTransformer の各層の役割
について説明します。さらに、その役割を実現している技術について詳細に説明します。
1.3.1
Transformer の構成
Transformerの構成を図 1.3.1 に示します。Transformer の入力は
n
個のトークンで、出力
は後続トークンの確率分布です。より正確には、
n
要素のベクトル
x
=
[x
1
,
x
2
, g,
x
n
]
(各
x
i
はトークンID)が入力となります。なお、
n