
ンを一意な数値(トークンID)に変換します。このトークン IDの列が、Transformerの入力と
して使用されます。一方、TransformerはトークンID の列を入力として受け取り、次のトー
クンID を予測します。予測したトークンID は次の入力として再帰的に利用されます。これを
繰り返すことで、より長い文章やテキストを生成することができます。
図1.2.1
トークナイザによるトークン化
図1.2.2 にトークナイザによるトークン化の様子を示します。例えば、「昔々あるところに
お爺さんと」という文章が入力された場合、トークナイザは次のようにトークン化します。
128000, 12345, 6789, 23456, 7890, 34567, 8901, 5678
ここで、各トークンID とトークンの対応は次のとおりとします。
128000: <|begin_of_text|>
12345: 昔
6789: 々
23456: ある
7890: ところ
34567: に
8901: お爺さん
5678: と
<|begin_of_text|>
は文章の始まりを表す特殊トークンです。トークナイザは特殊トークン
を自動的に挿入します。
026