Kapitel 4 Transformer
Transformer-Modelle haben NLP (Natural Language Processing) erheblich vorangebracht. Sie überwinden die Einschränkungen von RNNs beim Umgang mit weitreichenden Abhängigkeiten und ermöglichen die parallele Verarbeitung von Eingabesequenzen. Es gibt drei Hauptversionen von Transformer-Architekturen: Encoder-Decoder (ursprünglich formuliert für die maschinelle Übersetzung), nur Encoder (typischerweise für die Klassifizierung verwendet) und nur Decoder (häufig in Chat-LMs zu finden).
In diesem Kapitel untersuchen wir die »Nur-Decoder-Transformer-Architektur« ausführlich, da sie den am weitesten verbreiteten Ansatz für das Training autoregressiver Sprachmodelle bildet.
Die Transformer-Architektur führt zwei Schlüsselinnovationen ...
Become an O’Reilly member and get unlimited access to this title plus top books and audiobooks from O’Reilly and nearly 200 top publishers, thousands of courses curated by job role, 150+ live events each month,
and much more.
Read now
Unlock full access