
1
表1.2.1
トークンID トークン 説明
128006 <|start_header_id|> ヘッダ(役割情報)の開始を示す特殊トークン
128007 <|end_header_id|> ヘッダ(役割情報)の終了を示す特殊トークン
128009 <|eot_id|> ターン(発言)の終了を示す特殊トークン
出典:Llama 3
https://github.com/meta-llama/llama3/blob/main/llama/test_tokenizer.py
例えば、次のようなメッセージが入力されたとします。
ユーザ: 「こんにちは!」
アシスタント: 「こんにちは。ご用件は何でしょうか?」
ユーザ: 「犬と猫の違いは何ですか?」
この会話履歴は、例えば次のようにトークン化されます。
['<|begin_of_text|>', '<|start_header_id|>', 'user', '<|end_header_id|>', '\n\n', 'こん
にちは', '!', '<|eot_id|>', '<|start_header_id|>', 'assistant', '<|end_header_
id|>', '\n\n', 'こんにちは', '。', 'ご用件', 'は', '何', 'でしょうか', '?', '<|eot_
id|>', '<|start_header_id|>', 'user', '<|end_header_id|>', ...