book

Große Sprachmodelle zum Anfassen

Name: Große Sprachmodelle zum Anfassen
ISBN: 9781098179946

by Jay Alammar, Maarten Grootendorst

March 2025

Intermediate to advanced

428 pages

11h 32m

German

O'Reilly Media, Inc.

Audio summary available

Read now

Unlock full access

Vorwort
Eine Philosophie, die von der Intuition ausgehtVoraussetzungenBuchstrukturTeil I: Sprachmodelle verstehenTeil II: Verwendung vortrainierter SprachmodelleTeil III: Training und Feinabstimmung von SprachmodellenHardware- und Software-AnforderungenAPI-SchlüsselIn diesem Buch verwendete KonventionenCode-Beispiele verwendenO'Reilly Online LearningWie du uns kontaktierstDanksagungen
I. Sprachmodelle verstehen
1. Eine Einführung in große Sprachmodelle
Was ist Sprach-KI?Die jüngste Geschichte der Sprach-KIDie Sprache als Wortsack darstellenBessere Repräsentationen mit dichten VektoreinbettungenArten von EinbettungenKodierung und Dekodierung des Kontexts mit AufmerksamkeitAufmerksamkeit ist alles, was du brauchstRepräsentationsmodelle: Modelle, die nur den Encoder betreffenGenerative Modelle: Nur-Decoder-ModelleDas Jahr der generativen KIDie bewegende Definition eines "großen Sprachmodells"Das Trainingsparadigma für große SprachmodelleGroße Sprachmodellanwendungen: Was macht sie so nützlich?Verantwortungsvolle LLM-Entwicklung und -NutzungBegrenzte Ressourcen sind alles, was du brauchstInteraktion mit großen SprachmodellenProprietäre, private ModelleOffene ModelleOpen Source FrameworksErzeugen deines ersten TextesZusammenfassung
2. Token und Einbettungen
LLM TokenisierungWie Tokenizer die Eingaben für das Sprachmodell vorbereitenHerunterladen und Ausführen eines LLMWie zerlegt der Tokenizer den Text?Wort vs. Teilwort vs. Zeichen vs. Byte TokenVergleich von trainierten LLM TokenizernTokenizer-EigenschaftenToken-EinbettungenEin Sprachmodell enthält Einbettungen für das Vokabular seines TokenizersErstellen kontextbezogener Worteinbettungen mit SprachmodellenTexteinbettungen (für Sätze und ganze Dokumente)Worteinbettungen jenseits der LLMsVortrainierte Worteinbettungen verwendenDer Word2vec-Algorithmus und kontrastives TrainingEinbettungen für EmpfehlungssystemeLieder durch Einbettungen empfehlenTraining eines Song-EinbettungsmodellsZusammenfassung
3. Blick in große Sprachmodelle
Ein Überblick über TransformatorenmodelleDie Eingänge und Ausgänge eines trainierten LLMs für TransformatorenDie Bestandteile des VorwärtspassesAuswahl eines einzelnen Tokens aus der Wahrscheinlichkeitsverteilung (Sampling/Dekodierung)Parallele Token-Verarbeitung und KontextgrößeBeschleunigung der Generierung durch Zwischenspeichern von Schlüsseln und WertenIm Inneren des TransformatorblocksJüngste Verbesserungen an der Transformator-ArchitekturEffizientere AufmerksamkeitDer Transformator-BlockPositional Embeddings (RoPE)Andere architektonische Experimente und VerbesserungenZusammenfassung
II. Vorgefertigte Sprachmodelle verwenden
4. Text-Klassifizierung
Das Gefühl der FilmkritikTextklassifizierung mit RepräsentationsmodellenModellauswahlEin aufgabenspezifisches Modell verwendenKlassifizierungsaufgaben, die sich Einbettungen zunutze machenÜberwachte KlassifizierungWas ist, wenn wir keine beschrifteten Daten haben?Textklassifizierung mit generativen ModellenDen Text-zu-Text-Transformator verwendenChatGPT für die KlassifizierungZusammenfassung
5. Text Clustering und Themenmodellierung
ArXivs Artikel: Rechnen und SpracheEine gemeinsame Pipeline für Text-ClusteringDokumente einbettenVerringerung der Dimensionalität von EinbettungenClustern der reduzierten EinbettungenInspektion der ClusterVom Text Clustering zum Topic ModelingBERTopic: Ein modulares Framework zur ThemenmodellierungEinen speziellen Legostein hinzufügenDer Text Generation Lego BlockZusammenfassung
6. Prompt-Engineering
Textgenerierungsmodelle verwendenAuswahl eines TextgenerierungsmodellsLaden eines TextgenerierungsmodellsKontrolle der ModellausgabeEinführung in Prompt-EngineeringDie Grundbestandteile einer EingabeaufforderungInstruktionsbasierte EingabeaufforderungFortgeschrittenes Prompt-EngineeringDie potenzielle Komplexität einer EingabeaufforderungKontextbezogenes Lernen: Beispiele bereitstellenEingabeaufforderung für die Kette: Das Problem aufbrechenReasoning mit generativen ModellenGedankenkette: Denken, bevor man antwortetSelbstkonsistenz: Sampling-AusgängeDer Gedankenbaum: Zwischenschritte erforschenOutput-PrüfungBeispiele liefernGrammatik: Constrained SamplingZusammenfassung
7. Fortgeschrittene Techniken und Werkzeuge zur Texterstellung
Modell-I/O: Quantisierte Modelle mit LangChain ladenKetten: Erweiterung der Möglichkeiten von LLMsEin einzelnes Glied in der Kette: Eingabeaufforderung VorlageEine Kette mit mehreren EingabeaufforderungenGedächtnis: LLMs dabei helfen, sich an Gespräche zu erinnernKonversationspufferWindowed Conversation BufferZusammenfassung der KonversationAgenten: Ein System von LLMs schaffenDie treibende Kraft hinter Agenten: Schritt-für-Schritt-BegründungReAct in LangChainZusammenfassung

8. Semantische Suche und Retrieval-Augmented Generation
Überblick über die semantische Suche und RAGSemantische Suche mit SprachmodellenDichter AbrufRerankingMetriken zur Bewertung des AbrufsRetrieval-Augmented Generation (RAG)Von der Suche zur RAGBeispiel: Grounded Generation mit einer LLM APIBeispiel: RAG mit lokalen ModellenFortgeschrittene RAG-TechnikenRAG-BewertungZusammenfassung
9. Multimodale große Sprachmodelle
Transformatoren für die VisionMultimodale EinbettungsmodelleCLIP: Text und Bilder miteinander verbindenWie kann CLIP multimodale Einbettungen generieren?OpenCLIPTextgenerierungsmodelle multimodal gestaltenBLIP-2: Überbrückung der Kluft zwischen den ModalitätenMultimodale Eingaben vorverarbeitenAnwendungsfall 1: BildbeschriftungAnwendungsfall 2: Multimodale Eingabeaufforderung per ChatZusammenfassung
III. Training und Feinabstimmung von Sprachmodellen
10. Text-Einbettungsmodelle erstellen
Modelle einbettenWas ist kontrastives Lernen?SBERTEin Einbettungsmodell erstellenErzeugen kontrastiver BeispieleZugmodellEingehende BewertungVerlustfunktionenFeinabstimmung eines EinbettungsmodellsBeaufsichtigtErweitertes SBERTUnüberwachtes LernenTransformatorgestützter Auto-Encoder zur sequenziellen EntrauschungTSDAE für die Domänenanpassung nutzenZusammenfassung
11. Feinabstimmung der Repräsentationsmodelle für die Klassifizierung
Überwachte KlassifizierungFeinabstimmung eines vortrainierten BERT-ModellsGefrierschichtenFew-Shot-KlassifizierungSetFit: Effizientes Fine-Tuning mit wenigen TrainingsbeispielenFeinabstimmung für die Few-Shot-KlassifizierungFortgesetztes Pretraining mit Masked Language ModelingNamed-Entity-AnerkennungDaten für die Erkennung von Namen vorbereitenFeinabstimmung für die Erkennung von benannten ObjektenZusammenfassung
12. Feinabstimmung der Generierungsmodelle
Die drei LLM-Trainingsschritte: Vortraining, überwachte Feinabstimmung und PräferenzabstimmungÜberwachtes Fine-Tuning (SFT)Volle FeinabstimmungParametereffiziente Feinabstimmung (PEFT)Befehlsabstimmung mit QLoRATemplating-BefehlsdatenModell QuantisierungLoRA KonfigurationAusbildung KonfigurationAusbildungGewichte zusammenführenGenerative Modelle auswertenMetriken auf WortebeneBenchmarksBestenlistenAutomatisierte AuswertungMenschliche BewertungPräferenz-Tuning / Ausrichtung / RLHFAutomatisierte Präferenzbewertung mit BelohnungsmodellenDie Inputs und Outputs eines BelohnungsmodellsEin Belohnungsmodell trainierenModell "Ausbildung ohne BelohnungPräferenzabstimmung mit DPOTemplating von AusrichtungsdatenModell QuantisierungAusbildung KonfigurationAusbildungZusammenfassung
Nachwort
Index
Über die Autoren

Content preview from Große Sprachmodelle zum Anfassen

Kapitel 5. Text-Clustering und Themenmodellierung

Diese Arbeit wurde mithilfe von KI übersetzt. Wir freuen uns über dein Feedback und deine Kommentare: translation-feedback@oreilly.com

Obwohl überwachte Techniken wie die Klassifizierung in den letzten Jahren in der Branche die Oberhand gewonnen haben, darf das Potenzial von unüberwachten Techniken wie dem Text-Clustering nicht unterschätzt werden.

Ziel des Textclustering ist es, ähnliche Texte auf der Grundlage ihres semantischen Inhalts, ihrer Bedeutung und ihrer Beziehungen zu gruppieren. Wie in Abbildung 5-1 dargestellt, erleichtern die entstehenden Cluster semantisch ähnlicher Dokumente nicht nur die effiziente Kategorisierung großer Mengen unstrukturierter Texte, sondern ermöglichen auch eine schnelle explorative Datenanalyse.

Die jüngste Entwicklung von Sprachmodellen, die kontextuelle und semantische Darstellungen von Texten ermöglichen, hat die Effektivität des Textclusterns verbessert. Sprache ist mehr als eine Ansammlung von Wörtern, und die neuesten Sprachmodelle haben bewiesen, dass sie diesen Begriff gut erfassen können. Das Textclustering, das nicht an die Überwachung gebunden ist, ermöglicht kreative Lösungen und vielfältige Anwendungen, z. B. das Auffinden von Ausreißern, die Beschleunigung der Beschriftung und das Auffinden falsch beschrifteter Daten.

Das Textclustering ...

Become an O’Reilly member and get unlimited access to this title plus top books and audiobooks from O’Reilly and nearly 200 top publishers, thousands of courses curated by job role, 150+ live events each month,
and much more.

Read now

Unlock full access

More than 5,000 organizations count on O’Reilly

O’Reilly covers everything we've got, with content to help us build a world-class technology community, upgrade the capabilities and competencies of our teams, and improve overall team performance as well as their engagement.

Julian F.

Head of Cybersecurity

I wanted to learn C and C++, but it didn't click for me until I picked up an O'Reilly book. When I went on the O’Reilly platform, I was astonished to find all the books there, plus live events and sandboxes so you could play around with the technology.

Addison B.

Field Engineer

I’ve been on the O’Reilly platform for more than eight years. I use a couple of learning platforms, but I'm on O'Reilly more than anybody else. When you're there, you start learning. I'm never disappointed.

Amir M.

Data Platform Tech Lead

I'm always learning. So when I got on to O'Reilly, I was like a kid in a candy store. There are playlists. There are answers. There's on-demand training. It's worth its weight in gold, in terms of what it allows me to do.

Mark W.

Embedded Software Engineer

Künstliche Intelligenz - Eine Einführung

Künstliche Intelligenz kapieren und programmieren - Visuell lernen und verstehen mit Illustrationen und Projekten zum Experimentieren

Michael Weigend

Publisher Resources

ISBN: 9781098179946

Cloud Computing

Data Engineering

Data Science

AI & ML

Programming Languages

Software Architecture

IT/Ops

Security

Design

Business

Soft Skills

Große Sprachmodelle zum Anfassen

by Jay Alammar, Maarten Grootendorst

Kapitel 5. Text-Clustering und Themenmodellierung

Abbildung 5-1. Clustering unstrukturierter Textdaten.

Become an O’Reilly member and get unlimited access to this title plus top books and audiobooks from O’Reilly and nearly 200 top publishers, thousands of courses curated by job role, 150+ live events each month,
and much more.