book

Progettazione di applicazioni per modelli linguistici di grandi dimensioni

by Suhas Pai

March 2025

Intermediate to advanced

366 pages

10h 33m

Italian

O'Reilly Media, Inc.

Read now

Unlock full access

Per chi è questo libroCome è strutturato questo libroDi cosa non parla questo libroCome leggere il libroConvenzioni utilizzate in questo libroUtilizzo di esempi di codiceFormazione online O'ReillyCome contattarciRingraziamenti
Definizione degli LLMsUna breve storia degli LLMsI primi anniL'era moderna dell'LLML'impatto degli LLMsUtilizzo di LLM in aziendapromptprompt a colpo zeroprompt a pochi colpiprompt della catena di pensieriConcatenamento di promptprompt avversarialeAccesso a LLMs attraverso un'APIPunti di forza e limiti degli LLMsCostruisci il tuo primo prototipo di chatbotDal prototipo alla produzioneRiassunto
Ingredienti di un LLMRequisiti dei dati pre-addestramentoDataset di pre-addestramento popolariDati sintetici di pre-addestramentoPreelaborazione dei dati di formazioneFiltraggio e pulizia dei datiSelezione di documenti di qualitàDeduplicazioneRimozione delle informazioni di identificazione personaleSet di formazione DecontaminazioneMiscele di datiEffetto dei dati di pre-addestramento sui compiti a valleProblemi di parzialità e correttezza nei dataset di pre-addestramentoRiassunto
VocabolarioTokenizzatoriPipeline di tokenizzazioneNormalizzazionePre-tokenizzazioneTokenizzazioneCodifica della coppia di byteParolaPieceGettoni specialiRiassunto
PreliminariRappresentare il significatoL'architettura del trasformatoreAttenzione a se stessiCodifica posizionaleReti FeedforwardNormalizzazione dei livelliFunzioni di perditaValutazione del modello intrinsecoDorsali di trasformatoriArchitetture solo encoderArchitetture encoder-decoderArchitetture solo decoderMiscela di espertiObiettivi di apprendimentoModellazione linguistica completaModellazione del linguaggio dei prefissiModellazione del linguaggio in mascheraQuali obiettivi di apprendimento sono migliori?Modelli di pre-addestramentoRiassunto
Navigare nel panorama dell'LLMChi sono i fornitori di LLM?Modelli di saporiLLMs open sourceCome scegliere un LLM per il tuo compitoLLMs Open Source contro LLMs proprietariValutazione LLMCaricamento degli LLMsAbbracciare il viso AccelerareOllamaAPI di inferenza LLMStrategie di decodificaDecodifica avidaRicerca del fascioCampionamento Top-kCampionamento top-pEseguire l'inferenza su LLMsUscite strutturateDebug del modello e interpretabilitàRiassunto
La necessità di una messa a puntoMessa a punto: Un esempio completoParametri degli algoritmi di apprendimentoParametri di ottimizzazione della memoriaParametri di regolarizzazioneDimensione del lottoMessa a punto efficiente dei parametriLavorare con una precisione ridottaMettere tutto insiemeMessa a punto dei set di datiUtilizzo di set di dati di ottimizzazione dell'istruzione disponibili pubblicamenteSet di dati per l'ottimizzazione delle istruzioni generati da LLMRiassunto
Preformazione continuaReplay (memoria)Espansione dei parametriMessa a punto efficiente dei parametriAggiunta di nuovi parametriMetodi di sottoinsiemeCombinazione di più modelliAssemblaggio di modelliModello FusionFusione di adattatoriRiassunto

Definire la formazione sull'allineamentoApprendimento per rinforzoTipi di feedback umanoEsempio di RLHFAllucinazioniAttenuare le allucinazioniCoerenza con se stessiCatena di azioniRecitazioneMetodi di campionamento per affrontare le allucinazioniDecodifica per contrasto di livelliAllucinazioni in contestoAllucinazioni dovute a informazioni irrilevantiRagionamentoRagionamento deduttivoRagionamento induttivoRagionamento induttivoRagionamento di buon sensoIndurre il ragionamento nei LLMsVerificatori per migliorare il ragionamentoCalcolo a tempo di inferenzaFine-Tuning per il ragionamentoRiassunto
Sfide dell'inferenza LLMTecniche di ottimizzazione dell'inferenzaTecniche per ridurre il calcoloCaching K-VUscita anticipataDistillazione della conoscenzaTecniche per accelerare la decodificaDecodifica speculativaDecodifica parallelaTecniche per ridurre le esigenze di stoccaggioQuantizzazione simmetricaQuantizzazione asimmetricaRiassunto
Paradigmi di interazione LLMApproccio passivoL'approccio esplicitoL'approccio autonomoDefinizione degli agentiFlusso di lavoro agenzialeComponenti di un sistema agenzialeModelliStrumentiArchivi di datiAgente Loop promptGuardrail e verificatoriSoftware di orchestrazione degli agentiRiassunto
Introduzione alle incorporazioniRicerca semanticaMisure di somiglianzaMessa a punto dei modelli di incorporazioneModelli baseSet di dati di allenamentoFunzioni di perditaIncorporamenti di istruzioniOttimizzare le dimensioni dell'incorporamentoIncorporamenti di matrioskeIncorporazioni binarie e integraliQuantizzazione del prodottoChunkingFinestre scorrevoli a scomparsaChunking consapevole dei metadatiChunking consapevole del layoutChunking semanticoChunking tardivoDatabase vettorialiInterpretare le incorporazioniRiassunto
La necessità di RAGScenari RAG tipiciDecidere quando recuperareIl gasdotto RAGRiscrivereRecuperaRerankRaffinareInserisciGenerareRAG per la gestione della memoriaRAG per la selezione di esempi di formazione in contestoRAG per la formazione dei modelliLimiti del RAGRAG contro il contesto lungoRAG contro messa a puntoRiassunto
Architetture Multi-LLMCascate di LLMRouterLLMs specializzati per compitoParadigmi di programmazioneDSPyLMQLRiassunto

Content preview from Progettazione di applicazioni per modelli linguistici di grandi dimensioni

Capitolo 13. Modelli di progettazione e architettura di sistema

Questo lavoro è stato tradotto utilizzando l'AI. Siamo lieti di ricevere il tuo feedback e i tuoi commenti: translation-feedback@oreilly.com

Nel corso di questo libro abbiamo esplorato una serie di tecniche per adattare le LLMs alla soluzione dei nostri compiti, tra cui l'apprendimento nel contesto, la messa a punto, il RAG e l'uso di strumenti. Sebbene queste tecniche possano potenzialmente soddisfare i requisiti di performance del tuo caso d'uso, l'implementazione di un'applicazione basata su LLM in produzione richiede il rispetto di una serie di altri criteri come il costo, la latenza e l'affidabilità. Per raggiungere questi obiettivi, un'applicazione LLM ha bisogno di un'impalcatura software e di componenti specializzati.

A tal fine, in questo capitolo discuteremo varie tecniche per comporre un sistema LLM di livello produttivo in grado di alimentare applicazioni utili. Analizzeremo come sfruttare le architetture multi-LLM per bilanciare costi e prestazioni. Infine, esamineremo i framework software come DSPy che integrano lo sviluppo di applicazioni LLM nel paradigma di programmazione software convenzionale.

Trattare un'applicazione basata su LLM come un componente LLM a sé stante è inadeguato se intendiamo distribuirla come sistema di produzione. Dobbiamo trattarla come un sistema, composto da diversi componenti software e modelli che supportano il LLM e lo rendono affidabile, veloce ed economico. Il modo in cui ...