book

Entwurf großer Sprachmodell-Anwendungen

Name: Entwurf großer Sprachmodell-Anwendungen
Author: Suhas Pai
ISBN: 9798341629080

by Suhas Pai

March 2025

Intermediate to advanced

366 pages

10h 45m

German

O'Reilly Media, Inc.

Read now

Unlock full access

Vorwort
Für wen dieses Buch istWie dieses Buch strukturiert istWorum es in diesem Buch nicht gehtWie man das Buch liestIn diesem Buch verwendete KonventionenCode-Beispiele verwendenO'Reilly Online LearningWie du uns kontaktierstDanksagungen
I. LLM Inhaltsstoffe
1. Einführung
Definition von LLMsEine kurze Geschichte der LLMsFrühe JahreDie moderne LLM-ÄraDer Einfluss von LLMsLLM-Nutzung im UnternehmenEingabeaufforderungZero-Shot EingabeaufforderungEingabeaufforderung für wenige SchüsseEingabeaufforderung für die GedankenketteEingabeaufforderung VerkettungWidersprüchliche EingabeaufforderungZugriff auf LLMs über eine APIStärken und Beschränkungen von LLMsBau deines ersten Chatbot-PrototypsVom Prototyp zur ProduktionZusammenfassung
2. Pre-Training Daten
Bestandteile eines LLMAnforderungen an die Daten vor dem TrainingBeliebte Pre-Training-DatensätzeSynthetische Pre-Training-DatenVorverarbeitung der TrainingsdatenDatenfilterung und -bereinigungAuswahl von QualitätsdokumentenDeduplizierungPersönlich identifizierbare Informationen entfernenTrainingsset DekontaminationDaten MischungenAuswirkung von Pre-Training-Daten auf nachgelagerte AufgabenVerzerrungen und Fairness in Pre-Training-DatensätzenZusammenfassung
3. Wortschatz und Tokenisierung
VokabelnTokenizerTokenisierung PipelineNormalisierungVor der TokenisierungTokenisierungByte-Paar-KodierungWordPieceBesondere TokenZusammenfassung
4. Architekturen und Lernziele
PräliminarienBedeutung repräsentierenDie Architektur des TransformatorsSelbstaufmerksamkeitPositionelle KodierungFeedforward-NetzwerkeEbene NormalisierungVerlustfunktionenIntrinsische ModellbewertungTransformator-BackbonesArchitekturen, die nur Encoder enthaltenEncoder-Decoder-ArchitekturenDecoder-basierte ArchitekturenGemischte Gruppe von ExpertenLernzieleVollständige SprachmodellierungPräfix-SprachmodellierungMaskierte SprachmodellierungWelche Lernziele sind besser?Pre-Training ModelleZusammenfassung
II. Nutzung von LLMs
5. Anpassung der LLMs an deinen Anwendungsfall
Navigieren in der LLM-LandschaftWer sind die LLM-Anbieter?Modell GeschmacksrichtungenOpen Source LLMsWie du einen LLM für deine Aufgabe auswählstOpen Source vs. proprietäre LLMsLLM-BewertungLLMs ladenGesicht umarmen BeschleunigenOllamaLLM Inferenz-APIsDekodierungsstrategienGierige DekodierungBeam SearchTop-k-SamplingTop-p SamplingInferenz auf LLMs anwendenStrukturierte AusgabenModell-Debugging und InterpretierbarkeitZusammenfassung
6. Feinabstimmung
Die Notwendigkeit der FeinabstimmungFeinabstimmung: Ein ausführliches BeispielLernalgorithmen ParameterParameter für die SpeicheroptimierungRegularisierungsparameterChargengrößeParametereffiziente FeinabstimmungArbeiten mit reduzierter PräzisionAlles zusammenfügenFeinabstimmung der DatensätzeNutzung öffentlich zugänglicher Datensätze zur UnterrichtsoptimierungLLM-generierte BefehlsabstimmungsdatensätzeZusammenfassung
7. Erweiterte Feinabstimmungstechniken
Kontinuierliches Pre-TrainingWiederholung (Speicher)Parameter ErweiterungParametereffiziente FeinabstimmungHinzufügen neuer ParameterTeilmenge MethodenKombinieren mehrerer ModelleModel EnsemblingModell FusionAdapter-ZusammenführungZusammenfassung

8. Ausrichten Training und Argumentation
Definition der AusrichtungsschulungReinforcement LearningArten von menschlichem FeedbackRLHF BeispielHalluzinationenHalluzinationen abmildernEigenständigkeitWirkungsketteRezitationStichprobenmethoden zur Untersuchung von HalluzinationenDekodierung durch kontrastierende SchichtenIn-Context-HalluzinationenHalluzinationen aufgrund von irrelevanten InformationenVernunftDeduktive ArgumentationInduktive ArgumentationAbduktives RechnenGesunder MenschenverstandVernunft in LLMs induzierenVerifizierer zur Verbesserung der ArgumentationInferenzzeit-BerechnungFeinabstimmung für das ReasoningZusammenfassung
9. Inferenz-Optimierung
LLM Inferenz-HerausforderungenInferenz-OptimierungstechnikenTechniken zur Reduzierung von RechenaufwandK-V CachingFrühzeitiger AusstiegWissensdestillationTechniken zur Beschleunigung der DekodierungSpekulative DekodierungParallele DekodierungTechniken zur Reduzierung des SpeicherbedarfsSymmetrische QuantisierungAsymmetrische QuantisierungZusammenfassung
III. LLM-Anwendungsparadigmen
10. Schnittstelle zwischen LLMs und externen Tools
LLM InteraktionsparadigmenPassive HerangehensweiseDer explizite AnsatzDer autonome AnsatzAgenten definierenAgentischer WorkflowKomponenten eines AgentensystemsModelleWerkzeugeDatenspeicherAgent Loop EingabeaufforderungLeitplanken und ÜberprüferAgent Orchestration SoftwareZusammenfassung
11. Repräsentationslernen und Einbettungen
Einführung in EinbettungenSemantische SucheÄhnlichkeitsmaßnahmenFeinabstimmung der EinbettungsmodelleBasis-ModelleTrainingsdatensatzVerlustfunktionenEinbettung von AnweisungenOptimieren der EinbettungsgrößeMatroschka-EinbettungenBinäre und ganzzahlige EinbettungenProduktquantisierungChunkingSchiebefenster einschlagenMetadaten-bewusstes ChunkingLayout-bewusstes ChunkingSemantisches ChunkingSpätes ChunkingVektordatenbankenEinbettungen interpretierenZusammenfassung
12. Retrieval-Augmented Generation
Die Notwendigkeit der RAGTypische RAG-SzenarienEntscheidung über den Zeitpunkt des RückholensDie RAG-PipelineUmschreibenabrufenRerankVerfeinerneinfügenErstelleRAG für die SpeicherverwaltungRAG für die Auswahl von kontextbezogenen TrainingsbeispielenRAG für ModellschulungBeschränkungen der RAGRAG Versus Long ContextRAG Versus Fine-TuningZusammenfassung
13. Entwurfsmuster und Systemarchitektur
Multi-LLM-ArchitekturenLLM KaskadenRouterAufgabenspezialisierte LLMsProgrammierparadigmenDSPyLMQLZusammenfassung
Index
Über den Autor

Content preview from Entwurf großer Sprachmodell-Anwendungen

Kapitel 9. Inferenz-Optimierung

Diese Arbeit wurde mithilfe von KI übersetzt. Wir freuen uns über dein Feedback und deine Kommentare: translation-feedback@oreilly.com

In den letzten Kapiteln haben wir verschiedene Techniken kennengelernt, um LLMs für die Lösung bestimmter Aufgaben anzupassen und zu nutzen. In diesem Kapitel werden wir lernen, wie man mit LLMs in der Praxis effizient Inferenzen durchführen kann. Die große Größe von LLMs macht den Einsatz und die Schlussfolgerungen zu einer besonderen Herausforderung, da sie einen erheblichen Druck auf den Rechen-, Speicher- und Energiebedarf ausüben. Dies erweist sich vor allem bei Kantengeräten wie Mobiltelefonen als Herausforderung.

Im weiteren Verlauf des Kapitels konzentrieren wir uns auf den Bereich der Inferenzoptimierung und erörtern die Faktoren, die die LLM-Inferenzzeit beeinflussen. Anschließend werden wir eine Reihe von Optimierungstechniken vorstellen, darunter Caching, Wissensdestillation, frühzeitiges Verlassen, Quantisierung, parallele und spekulative Dekodierung und mehr.

LLM Inferenz-Herausforderungen

Was sind die Engpässe bei LLM-Schlussfolgerungen? Wie wir alle wissen, erfordern ihre gigantischen Größen enorme Rechen- und Speicherressourcen. Darüber hinaus verschärfen zwei weitere Faktoren die Situation:

Wie in Kapitel 4 beschrieben, basieren die heutigen LLMs größtenteils auf reinen Decodermodellen, die autoregressiv arbeiten. Das bedeutet, dass jedes Token nacheinander generiert wird, was zu einer sequentiellen ...

Become an O’Reilly member and get unlimited access to this title plus top books and audiobooks from O’Reilly and nearly 200 top publishers, thousands of courses curated by job role, 150+ live events each month,
and much more.

Read now

Unlock full access

More than 5,000 organizations count on O’Reilly

O’Reilly covers everything we've got, with content to help us build a world-class technology community, upgrade the capabilities and competencies of our teams, and improve overall team performance as well as their engagement.

Julian F.

Head of Cybersecurity

I wanted to learn C and C++, but it didn't click for me until I picked up an O'Reilly book. When I went on the O’Reilly platform, I was astonished to find all the books there, plus live events and sandboxes so you could play around with the technology.

Addison B.

Field Engineer

I’ve been on the O’Reilly platform for more than eight years. I use a couple of learning platforms, but I'm on O'Reilly more than anybody else. When you're there, you start learning. I'm never disappointed.

Amir M.

Data Platform Tech Lead

I'm always learning. So when I got on to O'Reilly, I was like a kid in a candy store. There are playlists. There are answers. There's on-demand training. It's worth its weight in gold, in terms of what it allows me to do.

Mark W.

Embedded Software Engineer

Publisher Resources

ISBN: 9798341629080

Cloud Computing

Data Engineering

Data Science

AI & ML

Programming Languages

Software Architecture

IT/Ops

Security

Design

Business

Soft Skills

Entwurf großer Sprachmodell-Anwendungen

by Suhas Pai

Kapitel 9. Inferenz-Optimierung

LLM Inferenz-Herausforderungen

Become an O’Reilly member and get unlimited access to this title plus top books and audiobooks from O’Reilly and nearly 200 top publishers, thousands of courses curated by job role, 150+ live events each month,
and much more.