Capítulo 11. Munging de datos con la API de nivel medio de fastai

Este trabajo se ha traducido utilizando IA. Agradecemos tus opiniones y comentarios: translation-feedback@oreilly.com

Hemos visto lo que hacen Tokenizer y Numericalize a una colección de textos, y cómo se utilizan dentro de la API de bloques de datos, que maneja esas transformaciones por nosotros directamente utilizando la función TextBlock. Pero, ¿qué ocurre si sólo queremos aplicar una de esas transformaciones, ya sea para ver resultados intermedios o porque ya tenemos textos tokenizados? En términos más generales, ¿qué podemos hacer cuando la API del bloque de datos no es lo bastante flexible para adaptarse a nuestro caso de uso particular? Para ello, necesitamos utilizar la API de nivel medio de fastai para procesar datos. La API del bloque de datosestá construida sobre esa capa, por lo que te permitirá hacer todo lo que hace la API del bloque de datos, y mucho más.

Profundizando en la API por capas de fastai

La biblioteca fastai está construida sobre una API en capas. En la capa superior hay aplicaciones que nos permiten entrenar un modelo en cinco líneas de código, como vimos en el Capítulo 1. En el caso de crearDataLoaders para un clasificador de texto, por ejemplo, utilizamos esta línea:

from fastai.text.all import *

dls = TextDataLoaders.from_folder(untar_data(URLs.IMDB), valid='test')

El método de fábrica TextDataLoaders.from_folder es muy cómodo cuandotus datos están dispuestos exactamente igual que el ...

Get Aprendizaje profundo para programadores con fastai y PyTorch now with the O’Reilly learning platform.

O’Reilly members experience books, live events, courses curated by job role, and more from O’Reilly and nearly 200 top publishers.