
128000, 12345, 6789, 23456, 7890, 34567, 8901, 5678
ここで、次のトークンIDとして 1629 が選択されたとすると、トークンIDの列は次のように
更新されます。
128000, 12345, 6789, 23456, 7890, 34567, 8901, 5678, 1629
この新しいトークンIDの列が次のTransformer の入力となり、同様の処理が繰り返されま
す。この繰り返しはテキストの終わりを表す特殊トークン(
<|end_of_text|>
)が生成されるま
で、あるいは、あらかじめ決められた数のトークンが生成されるまで続きます。
生成されたトークン列のデコード
Transformerからのサンプリングを繰り返して得られるのは、後続の文章のトークンIDの
列です。このトークンID の列は、トークナイザによってデコードすることで、生成された文
章のテキスト表現を得ることができます。例えば、次のようなトークン列が得られたとしま
す。
405, 62894, 939, 214, 412, 107, …, 212, 457, 107, 128001
ここで、各トークンID が次のようなトークンに対応しているとします。
405: お
62894: 婆
939: さん
214: が
412: 住んでいました
107: 。
212: 幸せに
457: 暮らしました。
107: 。
128001: <|end_of_text|>
トークナイザがこの対応に基づいてトークン ...