book

Progettazione di applicazioni per modelli linguistici di grandi dimensioni

by Suhas Pai

March 2025

Intermediate to advanced

366 pages

10h 33m

Italian

O'Reilly Media, Inc.

Read now

Unlock full access

Per chi è questo libroCome è strutturato questo libroDi cosa non parla questo libroCome leggere il libroConvenzioni utilizzate in questo libroUtilizzo di esempi di codiceFormazione online O'ReillyCome contattarciRingraziamenti
Definizione degli LLMsUna breve storia degli LLMsI primi anniL'era moderna dell'LLML'impatto degli LLMsUtilizzo di LLM in aziendapromptprompt a colpo zeroprompt a pochi colpiprompt della catena di pensieriConcatenamento di promptprompt avversarialeAccesso a LLMs attraverso un'APIPunti di forza e limiti degli LLMsCostruisci il tuo primo prototipo di chatbotDal prototipo alla produzioneRiassunto
Ingredienti di un LLMRequisiti dei dati pre-addestramentoDataset di pre-addestramento popolariDati sintetici di pre-addestramentoPreelaborazione dei dati di formazioneFiltraggio e pulizia dei datiSelezione di documenti di qualitàDeduplicazioneRimozione delle informazioni di identificazione personaleSet di formazione DecontaminazioneMiscele di datiEffetto dei dati di pre-addestramento sui compiti a valleProblemi di parzialità e correttezza nei dataset di pre-addestramentoRiassunto
VocabolarioTokenizzatoriPipeline di tokenizzazioneNormalizzazionePre-tokenizzazioneTokenizzazioneCodifica della coppia di byteParolaPieceGettoni specialiRiassunto
PreliminariRappresentare il significatoL'architettura del trasformatoreAttenzione a se stessiCodifica posizionaleReti FeedforwardNormalizzazione dei livelliFunzioni di perditaValutazione del modello intrinsecoDorsali di trasformatoriArchitetture solo encoderArchitetture encoder-decoderArchitetture solo decoderMiscela di espertiObiettivi di apprendimentoModellazione linguistica completaModellazione del linguaggio dei prefissiModellazione del linguaggio in mascheraQuali obiettivi di apprendimento sono migliori?Modelli di pre-addestramentoRiassunto
Navigare nel panorama dell'LLMChi sono i fornitori di LLM?Modelli di saporiLLMs open sourceCome scegliere un LLM per il tuo compitoLLMs Open Source contro LLMs proprietariValutazione LLMCaricamento degli LLMsAbbracciare il viso AccelerareOllamaAPI di inferenza LLMStrategie di decodificaDecodifica avidaRicerca del fascioCampionamento Top-kCampionamento top-pEseguire l'inferenza su LLMsUscite strutturateDebug del modello e interpretabilitàRiassunto
La necessità di una messa a puntoMessa a punto: Un esempio completoParametri degli algoritmi di apprendimentoParametri di ottimizzazione della memoriaParametri di regolarizzazioneDimensione del lottoMessa a punto efficiente dei parametriLavorare con una precisione ridottaMettere tutto insiemeMessa a punto dei set di datiUtilizzo di set di dati di ottimizzazione dell'istruzione disponibili pubblicamenteSet di dati per l'ottimizzazione delle istruzioni generati da LLMRiassunto
Preformazione continuaReplay (memoria)Espansione dei parametriMessa a punto efficiente dei parametriAggiunta di nuovi parametriMetodi di sottoinsiemeCombinazione di più modelliAssemblaggio di modelliModello FusionFusione di adattatoriRiassunto

Definire la formazione sull'allineamentoApprendimento per rinforzoTipi di feedback umanoEsempio di RLHFAllucinazioniAttenuare le allucinazioniCoerenza con se stessiCatena di azioniRecitazioneMetodi di campionamento per affrontare le allucinazioniDecodifica per contrasto di livelliAllucinazioni in contestoAllucinazioni dovute a informazioni irrilevantiRagionamentoRagionamento deduttivoRagionamento induttivoRagionamento induttivoRagionamento di buon sensoIndurre il ragionamento nei LLMsVerificatori per migliorare il ragionamentoCalcolo a tempo di inferenzaFine-Tuning per il ragionamentoRiassunto
Sfide dell'inferenza LLMTecniche di ottimizzazione dell'inferenzaTecniche per ridurre il calcoloCaching K-VUscita anticipataDistillazione della conoscenzaTecniche per accelerare la decodificaDecodifica speculativaDecodifica parallelaTecniche per ridurre le esigenze di stoccaggioQuantizzazione simmetricaQuantizzazione asimmetricaRiassunto
Paradigmi di interazione LLMApproccio passivoL'approccio esplicitoL'approccio autonomoDefinizione degli agentiFlusso di lavoro agenzialeComponenti di un sistema agenzialeModelliStrumentiArchivi di datiAgente Loop promptGuardrail e verificatoriSoftware di orchestrazione degli agentiRiassunto
Introduzione alle incorporazioniRicerca semanticaMisure di somiglianzaMessa a punto dei modelli di incorporazioneModelli baseSet di dati di allenamentoFunzioni di perditaIncorporamenti di istruzioniOttimizzare le dimensioni dell'incorporamentoIncorporamenti di matrioskeIncorporazioni binarie e integraliQuantizzazione del prodottoChunkingFinestre scorrevoli a scomparsaChunking consapevole dei metadatiChunking consapevole del layoutChunking semanticoChunking tardivoDatabase vettorialiInterpretare le incorporazioniRiassunto
La necessità di RAGScenari RAG tipiciDecidere quando recuperareIl gasdotto RAGRiscrivereRecuperaRerankRaffinareInserisciGenerareRAG per la gestione della memoriaRAG per la selezione di esempi di formazione in contestoRAG per la formazione dei modelliLimiti del RAGRAG contro il contesto lungoRAG contro messa a puntoRiassunto
Architetture Multi-LLMCascate di LLMRouterLLMs specializzati per compitoParadigmi di programmazioneDSPyLMQLRiassunto

Content preview from Progettazione di applicazioni per modelli linguistici di grandi dimensioni

Capitolo 12. Generazione aumentata dal recupero

Questo lavoro è stato tradotto utilizzando l'AI. Siamo lieti di ricevere il tuo feedback e i tuoi commenti: translation-feedback@oreilly.com

Nel Capitolo 10 abbiamo dimostrato come sia possibile espandere notevolmente le capacità degli LLMs interfacciandoli con dati e software esterni. Nel Capitolo 11 abbiamo introdotto il concetto di embedding-based retrieval, una tecnica fondamentale per recuperare i dati rilevanti dagli archivi di dati in risposta alle query. Armati di queste conoscenze, esploriamo il paradigma applicativo dell'incremento delle LLMs con dati esterni, chiamato retrieval-augmented generation (RAG), in modo olistico.

In questo capitolo, vedremo una visione completa della pipeline RAG, approfondendo tutti i passaggi che compongono un tipico flusso di lavoro di un'applicazione RAG. Esploreremo le varie decisioni coinvolte nell'operatività del RAG, tra cui il tipo di dati che possiamo recuperare, come recuperarli e quando recuperarli. Evidenzieremo come il RAG possa essere utile non solo durante l'inferenza del modello, ma anche durante l'addestramento e la messa a punto del modello. Confronteremo inoltre RAG con altri paradigmi e discuteremo gli scenari in cui RAG brilla rispetto alle alternative o viceversa.

La necessità di RAG

Come introdotto nel Capitolo 10, RAG è un termine generico utilizzato per descrivere una serie di tecniche per l'utilizzo di fonti di dati esterne per aumentare le capacità di un LLM. Ecco ...