Capitolo 11. Munging dei dati con le API di medio livello di fastai
Questo lavoro è stato tradotto utilizzando l'AI. Siamo lieti di ricevere il tuo feedback e i tuoi commenti: translation-feedback@oreilly.com
Abbiamo visto cosa fanno Tokenizer e Numericalize a un insieme di testie come vengono utilizzati all'interno dell'API del blocco dati, che gestisce queste trasformazioni direttamente con TextBlock. Ma cosa succede se vogliamo applicare solo una di queste trasformazioni, per vedere i risultati intermedi o perché abbiamo già dei testi tokenizzati? Più in generale, cosa possiamo fare quando l'API dei blocchi di dati non è abbastanza flessibile per soddisfare il nostro particolare caso d'uso? Per questo, dobbiamo utilizzare l'API di medio livello di fastai per l'elaborazione dei dati. L'API del blocco datiè costruita su questo livello e ti permetterà di fare tutto ciò che fa l'API del blocco dati e molto di più.
Go in profondità nell'API stratificata di fastai
La libreria fastai è costruita su un'API a strati.Nel livello più alto ci sono le applicazioni che ci permettono di addestrare un modello in cinque righe di codice, come abbiamo visto nel capitolo 1. Nel caso della creazione diDataLoaders un classificatore di testo, per esempio, abbiamo usato questa riga:
fromfastai.text.allimport*dls=TextDataLoaders.from_folder(untar_data(URLs.IMDB),valid='test')
Il metodo factory TextDataLoaders.from_folder è molto comodo quandoi tuoi dati sono disposti esattamente come il dataset ...