book

Machine learning pratico con Scikit-Learn e PyTorch

by Aurélien Géron

October 2025

Intermediate to advanced

878 pages

28h 57m

Italian

O'Reilly Media, Inc.

Book available

Read now

Unlock full access

L'apprendimento automatico nei tuoi progettiObiettivo e approccioEsempi di codicePrerequisitiTabella di marciaCambiamenti tra le versioni di TensorFlow e PyTorchAltre risorseConvenzioni utilizzate in questo libroFormazione online di O'ReillyCome contattarciRingraziamenti
Cos'è l'apprendimento automatico?Perché usare l'apprendimento automatico?Esempi di applicazioniTipi di sistemi di apprendimento automaticoSupervisione della formazioneApprendimento batch contro apprendimento onlineApprendimento basato su istanze o su modelliPrincipali sfide dell'apprendimento automaticoQuantità insufficiente di dati di formazioneDati di formazione non rappresentativiDati di scarsa qualitàCaratteristiche irrilevantiOverfitting dei dati di formazioneSottoadattamento dei dati di formazioneProblemi di implementazioneFare un passo indietroTest e convalidaRegolazione degli iperparametri e selezione del modelloDisadattamento dei datiEsercizi
Lavorare con dati realiGuardare al quadro generaleInquadrare il problemaSelezionare una misura delle prestazioniVerifica le ipotesiOttenere i datiEseguire gli esempi di codice con Google ColabSalvare le modifiche al codice e i datiIl potere e il pericolo dell'interattivitàCodice a libro contro codice a quadernoScaricare i datiDai un'occhiata veloce alla struttura dei datiCreare un set di provaEsplorare e visualizzare i dati per ottenere approfondimentiVisualizzare i dati geograficiCercare correlazioniSperimentare le combinazioni di attributiPreparare i dati per gli algoritmi di apprendimento automaticoPulire i datiGestire gli attributi testuali e categoriciScalatura e trasformazione delle caratteristicheTrasformatori personalizzatiPipeline di trasformazioneSelezionare e addestrare un modelloAddestramento e valutazione sul set di addestramentoValutazione migliore con la convalida incrociataMettere a punto il modelloRicerca a grigliaRicerca randomizzataMetodi EnsembleAnalizzare i modelli migliori e i loro erroriValutare il sistema sul set di testAvvio, monitoraggio e manutenzione del sistemaProva!Esercizi
MNISTAddestramento di un classificatore binarioMisure di performanceMisurare l'accuratezza con la convalida incrociataMatrici di confusionePrecisione e richiamoIl trade-off tra precisione e richiamoLa curva ROCClassificazione multiclasseAnalisi degli erroriClassificazione multilingueClassificazione multioutputEsercizi
Regressione lineareL'equazione normaleComplessità computazionaleDiscesa del gradienteDiscesa del gradiente in batchDiscesa del gradiente stocasticaMini-Batch Gradient DescentRegressione polinomialeCurve di apprendimentoModelli lineari regolarizzatiRegressione di crestaRegressione LassoRegressione a rete elasticaArresto anticipatoRegressione logisticaStima delle probabilitàFormazione e funzione di costoLimiti decisionaliRegressione SoftmaxEsercizi
Formazione e visualizzazione di un albero decisionaleFare previsioniStimare le probabilità delle classiL'algoritmo di formazione CARTComplessità computazionaleImpurità o Entropia di Gini?Iperparametri di regolarizzazioneRegressioneSensibilità all'orientamento degli assiGli alberi decisionali hanno un'alta varianzaEsercizi
Classificatori di votoBagging e PastingInsaccamento e incollaggio in Scikit-LearnValutazione fuori saccoPatch e sottospazi casualiForeste casualiAlberi extraImportanza delle caratteristicheBoostingAdaBoostIncremento del gradienteIncremento del gradiente basato su istogrammiAccatastamentoEsercizi
La maledizione della dimensionalitàPrincipali approcci per la riduzione della dimensionalitàProiezioneApprendimento a collettorePCAPreservare la varianzaComponenti principaliProiezione su d dimensioniUsare Scikit-LearnRapporto di varianza spiegataScegliere il giusto numero di dimensioniPCA per la compressionePCA randomizzataPCA incrementaleProiezione casualeLLEAltre tecniche di riduzione della dimensionalitàEsercizi
Algoritmi di raggruppamento: k-means e DBSCANClustering k-MeansLimiti di k-MeansUtilizzo del clustering per la segmentazione delle immaginiUso del clustering per l'apprendimento semi-supervisionatoDBSCANAltri algoritmi di clusteringMiscele gaussianeUtilizzo delle miscele gaussiane per il rilevamento delle anomalieSelezione del numero di clusterModelli di miscele gaussiane bayesianeAltri algoritmi per il rilevamento di anomalie e novitàEsercizi

Dai neuroni biologici a quelli artificialiNeuroni biologiciCalcoli logici con i neuroniIl percettroneIl percettrone multistrato e la retropropagazioneCostruire e addestrare le MLP con Scikit-LearnMLP di regressioneMLP di classificazioneLinee guida per la regolazione degli iperparametriNumero di strati nascostiNumero di neuroni per strato nascostoTasso di apprendimentoDimensione del lottoAltri iperparametriEsercizi
Fondamenti di PyTorchTensori di PyTorchAccelerazione hardwareAutogradImplementare la regressione lineareRegressione lineare con tensori e AutogradRegressione lineare con le API di alto livello di PyTorchImplementare una MLP di regressioneImplementare la discesa del gradiente in mini-batch usando i caricatori di datiValutazione del modelloCostruire modelli non sequenziali con moduli personalizzatiCreare modelli con più ingressiCreare modelli con più usciteCostruire un classificatore di immagini con PyTorchUsare TorchVision per caricare il set di datiCostruire il classificatoreOttimizzare gli iperparametri della rete neurale con OptunaSalvare e caricare i modelli PyTorchCompilazione e ottimizzazione di un modello PyTorchEsercizi
Il problema dei gradienti che svaniscono/esplodonoInizializzazione di Glorot e inizializzazione di HeMigliori funzioni di attivazioneNormalizzazione dei lottiNormalizzazione dei livelliRitaglio del gradienteRiutilizzare i livelli pre-addestratiApprendimento di trasferimento con PyTorchPre-formazione non supervisionataPre-addestramento su un compito ausiliarioOttimizzatori più velociMomentoGradiente accelerato di NesterovAdaGradRMSPropAdamoAdaMaxNAdamAdamWProgrammazione del tasso di apprendimentoSchedulazione esponenzialeRicottura del cosenoProgrammazione delle prestazioniRiscaldare il tasso di apprendimentoRicottura del coseno con riavvio a caldoProgrammazione a 1 cicloEvitare l'overfitting attraverso la regolarizzazioneRegolarizzazione ℓ1 e ℓ2AbbandonoAbbandono Monte CarloRegolarizzazione Max-NormLinee guida praticheEsercizi
L'architettura della corteccia visivaStrati convoluzionaliFiltriAccatastamento di più mappe di caratteristicheImplementazione dei livelli convoluzionali con PyTorchLivelli di poolingImplementare i livelli di pooling con PyTorchArchitetture CNNLeNet-5AlexNetGoogLeNetResNetXceptionSENetAltre architetture degne di notaScegliere la giusta architettura CNNRequisiti di RAM della GPU: Inferenza e addestramentoReti residue reversibili (RevNets)Implementare una CNN ResNet-34 con PyTorchUsare i modelli pre-addestrati di TorchVisionModelli precostituiti per l'apprendimento di trasferimentoClassificazione e localizzazioneRilevamento di oggettiReti completamente convoluzionaliSi guarda solo una voltaTracciamento degli oggettiSegmentazione semanticaEsercizi
Neuroni e strati ricorrentiCelle di memoriaSequenze di ingresso e di uscitaAddestramento delle RNNPrevisione di una serie temporaleLa famiglia di modelli ARMAPreparare i dati per i modelli di apprendimento automaticoPrevisioni con un modello linearePrevisioni con una RNN semplicePrevisioni con una RNN profondaPrevisione di serie temporali multivariatePrevisioni con diversi passi temporali di anticipoPrevisioni con un modello da sequenza a sequenzaGestione di sequenze lungheCombattere il problema dei gradienti instabiliAffrontare il problema della memoria a breve termineEsercizi
Generazione di un testo shakespeariano con una RNN di caratteriCreare il set di dati di addestramentoIncorporamentiCostruire e addestrare il modello Char-RNNGenerare un falso testo shakespearianoAnalisi del sentimento tramite librerie di volti abbracciatiTokenizzazione con la libreria di tokenizzatori Hugging FaceRiutilizzare i tokenizer pre-addestratiCostruire e addestrare un modello di analisi del sentimentoRNN bidirezionaliRiutilizzare gli embeddings e i modelli linguistici precostituitiClassi specifiche per i compitiL'API dell'addestratorePipeline dei volti abbracciatiUna rete encoder-decoder per la traduzione automatica neuraleRicerca a raggieraMeccanismi di attenzioneEsercizi
L'attenzione è tutto ciò che serve: L'architettura originale dei trasformatoriCodifiche posizionaliAttenzione a più testeCostruire il resto del trasformatoreCostruire un trasformatore inglese-spagnoloTrasformatori solo encoder per la comprensione del linguaggio naturaleL'architettura del BERTPre-formazione del BERTMessa a punto del BERTAltri modelli solo encoderTrasformatori solo decodificatoriArchitettura GPT-1 e pre-addestramento generativoGPT-2 e apprendimento a zero colpiGPT-3, Apprendimento In-Context, Apprendimento One-Shot e Apprendimento a Pochi ScattiUsare il GPT-2 per generare testoUsare il GPT-2 per rispondere alle domandeScaricare ed eseguire un modello ancora più grande: Mistral-7BTrasformare un modello linguistico di grandi dimensioni in un chatbotMessa a punto di un modello per chattare e seguire le istruzioni usando SFT e RLHFOttimizzazione diretta delle preferenze (DPO)Messa a punto di un modello utilizzando la libreria TRLDa un modello di chatbot a un sistema completo di chatbotProtocollo di contesto del modelloLibrerie e strumentiModelli di codificatore-decodificatoreEsercizi
Trasformatori di visioneRNN con attenzione visivaDETR: un ibrido CNN-trasformatore per il rilevamento di oggettiIl ViT originaleTrasformatore di immagini efficiente dal punto di vista dei datiTrasformatore di visione a piramide per compiti di predizione densiIl trasformatore Swin: Un trasformatore di immagini veloce e versatileDINO: Apprendimento auto-supervisionato delle rappresentazioni visiveAltri importanti modelli e tecniche di visioneTrasformatori multimodaliVideoBERT: una variante di BERT per testo e videoViLBERT: un trasformatore a doppio flusso per testo e immaginiCLIP: un modello a doppio encoder per testo e immagini addestrato con pre-addestramento contrastivoDALL-E: generazione di immagini da prompt testualiPerceiver: Collegare le modalità ad alta risoluzione con gli spazi latentiPerceiver IO: Un meccanismo di output flessibile per il PerceiverFlamingo: Dialogo visivo apertoBLIP e BLIP-2Altri modelli multimodaliEsercizi
Rappresentazioni efficienti dei datiEseguire la PCA con un autoencoder lineare incompletoAutoencoder impilatiImplementazione di un autoencoder impilato con PyTorchVisualizzazione delle ricostruzioniRilevamento di anomalie tramite autoencoderVisualizzazione del dataset MNIST ModaPre-formazione non supervisionata con gli autoencoder impilatiLegare i pesiAddestramento di un autoencoder alla voltaAutoencoder convoluzionaliAutoencoder per il denoisingAutoencoder sparsiAutoencoder variazionaliGenerazione di immagini MNIST di modaAutoencoder variazionali discretiReti avversarie generativeLe difficoltà dell'addestramento delle GANModelli di diffusioneEsercizi
Cos'è l'apprendimento per rinforzo?Gradienti di politicaIntroduzione alla libreria GymnasiumPolitiche della rete neuraleValutazione delle azioni: Il problema dell'assegnazione dei creditiRisolvere il CartPole usando i gradienti della politicaMetodi basati sul valoreProcessi decisionali di MarkovApprendimento a differenza temporaleApprendimento QPolitiche di esplorazioneApprendimento Q approssimato e apprendimento Q profondoImplementazione dell'apprendimento Q profondoMiglioramenti al DQNAlgoritmi critico-attorialePadroneggiare Atari Breakout utilizzando l'implementazione PPO di Stable-Baselines3Panoramica di alcuni popolari algoritmi RLEserciziGrazie!
Differenziazione manualeApprossimazione a differenze finiteAutodiffusione in avantiAutodiffusione inversa
Rappresentazioni numeriche comuniModelli a precisione ridottaFormazione a precisione mistaQuantizzazioneQuantizzazione lineareQuantizzazione post-formazione con torch.ao.quantizationFormazione consapevole della quantizzazione (QAT)Quantizzazione degli LLMs con la libreria bitsandbytesUtilizzo di modelli pre-quantizzati

Content preview from Machine learning pratico con Scikit-Learn e PyTorch

Capitolo 17. Accelerare i trasformatori

Questo lavoro è stato tradotto utilizzando l'AI. Siamo lieti di ricevere il tuo feedback e i tuoi commenti: translation-feedback@oreilly.com

Nei Capitoli 15 e 16 abbiamo costruito trasformatori di ogni tipo, dai classificatori, traduttori e chatbot, ai trasformatori di visione e multimodali. Sebbene i trasformatori siano incredibilmente versatili e potenti, non sono affatto perfetti. In particolare, possono essere molto lenti, soprattutto quando elaborano lunghe sequenze di input.

Fortunatamente, sono state sviluppate molte tecniche per velocizzare i trasformatori di qualsiasi dimensione:

Per accelerare la decodifica nei trasformatori generativi, utilizzeremo la cache chiave/valore e la decodifica speculativa, poi daremo una rapida occhiata a diversi approcci per parallelizzare la generazione del testo.
Per accelerare l'attenzione multitesta (MHA), che è uno dei componenti più costosi dal punto di vista computazionale dei trasformatori, esamineremo l'attenzione rada, l'attenzione approssimativa, la condivisione delle proiezioni e FlashAttention.
Per velocizzare i trasformatori giganteschi, che possono contenere fino a trilioni di parametri, parleremo della miscela di esperti (MoE).
Per addestrare in modo efficiente trasformatori di grandi dimensioni, parleremo della messa a punto efficiente dei parametri (PEFT) utilizzando adattatori come Low-Rank Adaptation (LoRA), checkpoint di attivazione, impacchettamento di sequenze, accumulo ...