June 2025
Intermediate to advanced
414 pages
9h 54m
German
Die vollständigen Codebeispiele für die Antworten zu den Übungen finden Sie im ergänzenden GitHub-Repository unter https://github.com/rasbt/LLMs-from-scratch.
Die einzelnen Token-IDs erhalten Sie, indem Sie den Encoder mit jeweils einem String abfragen:
print(tokenizer.encode("Ak"))
print(tokenizer.encode("w"))
# ...
Die Ausgabe lautet:
[33901]
[86]
# ...
Dann können Sie mit dem folgenden Code den ursprünglichen String zusammensetzen:
print(tokenizer.decode([33901, 86, 343, 86, 220, 959]))
Dies ist die Rückgabe:
'Akwirw ier'
Der Code für den DataLoader mit max_length=2 und stride=2 sieht so aus:
dataloader = create_dataloader(
raw_text, batch_size=4, max_length=2, stride=2
)
Er ...
Read now
Unlock full access