DDie Trainingsschleife mit allem Drum und Dran
In diesem Anhang erweitern wir die Trainingsfunktion für die Vortrainings- und Feintuning-Prozesse, die in Kapitel 5 bis Kapitel 7 behandelt wurden. Insbesondere geht es um das Warmup der Lernrate, um Cosinus-Decay und um Gradienten-Clipping. Dann binden wir diese Techniken in die Trainingsfunktion ein und trainieren ein LLM vorab.
Um den Code in sich geschlossen zu halten, wird das in Kapitel 5 trainierte Modell erneut initialisiert:
import torch
from chapter04 import GPTModel
GPT_CONFIG_124M = {
"vocab_size": 50257, ![]()
"context_length": 256,
"emb_dim": 768,
"n_heads": 12,
"n_layers": 12,
"drop_rate": ...
Become an O’Reilly member and get unlimited access to this title plus top books and audiobooks from O’Reilly and nearly 200 top publishers, thousands of courses curated by job role, 150+ live events each month,
and much more.
Read now
Unlock full access