book

Large Language Models selbst programmieren

Name: Large Language Models selbst programmieren
Author: Sebastian Raschka
ISBN: 9783988890443

by Sebastian Raschka

June 2025

Intermediate to advanced

414 pages

9h 54m

German

dpunkt

Read now

Unlock full access

Cover
Hinweise zur Benutzung
Titel
Impressum
Inhalt
Vorwort
Über dieses Buch
1 LLMs verstehen
1.1 Was ist ein LLM?1.2 Anwendungen von LLMs1.3 Phasen beim Erstellen und Verwenden von LLMs1.4 Einführung in die Transformer-Architektur1.5 Große Datensätze nutzen1.6 Die GPT-Architektur unter der Lupe1.7 Ein großes Sprachmodell aufbauen1.8 Zusammenfassung
2 Mit Textdaten arbeiten
2.1 Wort-Embeddings2.2 Text tokenisieren2.3 Tokens in Token-IDs konvertieren2.4 Spezielle Kontexttokens hinzufügen2.5 Bytepaar-Codierung2.6 Daten-Sampling mit einem gleitenden Fenster2.7 Token-Embeddings erzeugen2.8 Wortpositionen codieren2.9 Zusammenfassung
3 Attention-Mechanismen programmieren
3.1 Das Problem beim Modellieren langer Sequenzen3.2 Datenabhängigkeiten mit Attention-Mechanismen erfassen3.3 Verschiedene Teile der Eingabe mit Self-Attention berücksichtigen3.3.1 Ein einfacher Self-Attention-Mechanismus ohne trainierbare Gewichte3.3.2 Attention-Gewichte für alle Eingabetokens berechnen3.4 Self-Attention mit trainierbaren Gewichten implementieren3.4.1 Attention-Gewichte Schritt für Schritt berechnen3.4.2 Eine kompakte Python-Klasse für Self-Attention implementieren3.5 Zukünftige Wörter mit kausaler Attention ausblenden3.5.1 Eine kausale Attention-Maske anwenden3.5.2 Zusätzliche Attention-Gewichte mit Dropout maskieren3.5.3 Eine kompakte Klasse für kausale Attention implementieren3.6 Single-Head-Attention zur Multi-Head-Attention erweitern3.6.1 Mehrere Single-Head-Attention-Schichten stapeln3.6.2 Multi-Head-Attention mit Gewichtsteilungen implementieren3.7 Zusammenfassung

4 Ein GPT-Modell von Grund auf neu erstellen, um Text zu generieren
4.1 Eine LLM-Architektur programmieren4.2 Aktivierungen mit Schichtnormalisierung normalisieren4.3 Ein Feedforward-Netz mit GELU-Aktivierungen implementieren4.4 Shortcut-Verbindungen hinzufügen4.5 Attention und lineare Schichten in einem Transformer-Block verbinden4.6 Das GPT-Modell programmieren4.7 Text generieren4.8 Zusammenfassung
5 Vortraining mit ungelabelten Daten
5.1 Generative Textmodelle bewerten5.1.1 Text mithilfe von GPT erzeugen5.1.2 Den Texterzeugungsverlust berechnen5.1.3 Die Verluste der Trainings- und Validierungsdatensätze berechnen5.2 Ein LLM trainieren5.3 Decodierungsstrategien, um Zufälligkeit zu steuern5.3.1 Temperaturskalierung5.3.2 Top-k-Sampling5.3.3 Die Funktion zur Textgenerierung modifizieren5.4 Modellgewichte in PyTorch laden und speichern5.5 Vortrainierte Gewichte von OpenAI laden5.6 Zusammenfassung
6 Feintuning zur Klassifizierung
6.1 Verschiedene Kategorien des Feintunings6.2 Den Datensatz vorbereiten6.3 DataLoader erstellen6.4 Ein Modell mit vortrainierten Gewichten initialisieren6.5 Einen Klassifizierungskopf hinzufügen6.6 Klassifizierungsverlust und -genauigkeit berechnen6.7 Das Modell mit überwachten Daten feintunen6.8 Das LLM als Spam-Klassifizierer verwenden6.9 Zusammenfassung
7 Feintuning, um Anweisungen zu befolgen
7.1 Einführung in die Anweisungsoptimierung7.2 Einen Datensatz für die Anweisungsoptimierung vorbereiten7.3 Daten in Trainingsstapeln organisieren7.4 DataLoader für einen Anweisungsdatensatz erstellen7.5 Ein vortrainiertes LLM laden7.6 Das LLM mit Anweisungsdaten feintunen7.7 Antworten extrahieren und speichern7.8 Das feingetunte LLM bewerten7.9 Fazit7.9.1 Was kommt als Nächstes?7.9.2 In einem sich schnell entwickelnden Bereich auf dem neuesten Stand bleiben7.9.3 Ein paar Worte zum Schluss7.10 Zusammenfassung
A Einführung in PyTorch
A.1 Was ist PyTorch?A.1.1 Die drei Kernkomponenten von PyTorchA.1.2 Deep Learning definierenA.1.3 PyTorch installierenA.2 TensorenA.2.1 Skalare, Vektoren, Matrizen und TensorenA.2.2 Tensor-DatentypenA.2.3 Allgemeine PyTorch-Tensor-OperationenA.3 Modelle als Berechnungsgraphen sehenA.4 Automatisches Differenzieren leicht gemachtA.4.1 Partielle Ableitungen und GradientenA.5 Mehrschichtige neuronale Netze implementierenA.6 Effiziente DataLoader einrichtenA.7 Eine typische TrainingsschleifeA.8 Modelle speichern und ladenA.9 Die Trainingsperformance mit GPUs optimierenA.9.1 PyTorch-Berechnungen auf GPU-GerätenA.9.2 Training auf einer einzelnen GPUA.9.3 Training mit mehreren GPUsA.10 Zusammenfassung
B Referenzen und weiterführende Literatur
C Lösungen zu den Übungen
D Die Trainingsschleife mit allem Drum und Dran
D.1 Aufwärmen der LernrateD.2 Cosinus-DecayD.3 Gradienten-ClippingD.4 Die modifizierte Trainingsfunktion
E Parametereffizientes Feintuning mit LoRA
E.1 Einführung in LoRAE.2 Den Datensatz vorbereitenE.3 Das Modell initialisierenE.4 Parametereffizientes Feintuning mit LoRA
Fußnoten
Index
Über den Autor

Content preview from Large Language Models selbst programmieren

DDie Trainingsschleife mit allem Drum und Dran

In diesem Anhang erweitern wir die Trainingsfunktion für die Vortrainings- und Feintuning-Prozesse, die in Kapitel 5 bis Kapitel 7 behandelt wurden. Insbesondere geht es um das Warmup der Lernrate, um Cosinus-Decay und um Gradienten-Clipping. Dann binden wir diese Techniken in die Trainingsfunktion ein und trainieren ein LLM vorab.

Um den Code in sich geschlossen zu halten, wird das in Kapitel 5 trainierte Modell erneut initialisiert:

import torch

from chapter04 import GPTModel

GPT_CONFIG_124M = {

"vocab_size": 50257,

"context_length": 256,

"emb_dim": 768,

"n_heads": 12,

"n_layers": 12,

"drop_rate": ...

Become an O’Reilly member and get unlimited access to this title plus top books and audiobooks from O’Reilly and nearly 200 top publishers, thousands of courses curated by job role, 150+ live events each month,
and much more.

Read now

Unlock full access

More than 5,000 organizations count on O’Reilly

O’Reilly covers everything we've got, with content to help us build a world-class technology community, upgrade the capabilities and competencies of our teams, and improve overall team performance as well as their engagement.

Julian F.

Head of Cybersecurity

I wanted to learn C and C++, but it didn't click for me until I picked up an O'Reilly book. When I went on the O’Reilly platform, I was astonished to find all the books there, plus live events and sandboxes so you could play around with the technology.

Addison B.

Field Engineer

I’ve been on the O’Reilly platform for more than eight years. I use a couple of learning platforms, but I'm on O'Reilly more than anybody else. When you're there, you start learning. I'm never disappointed.

Amir M.

Data Platform Tech Lead

I'm always learning. So when I got on to O'Reilly, I was like a kid in a candy store. There are playlists. There are answers. There's on-demand training. It's worth its weight in gold, in terms of what it allows me to do.

Mark W.

Embedded Software Engineer

Publisher Resources

ISBN: 9783988890443Publisher Website

Cloud Computing

Data Engineering

Data Science

AI & ML

Programming Languages

Software Architecture

IT/Ops

Security

Design

Business

Soft Skills

Large Language Models selbst programmieren

by Sebastian Raschka

DDie Trainingsschleife mit allem Drum und Dran

Become an O’Reilly member and get unlimited access to this title plus top books and audiobooks from O’Reilly and nearly 200 top publishers, thousands of courses curated by job role, 150+ live events each month,
and much more.