Capítulo 12. El conjunto de datos completo

Este trabajo se ha traducido utilizando IA. Agradecemos tus opiniones y comentarios: translation-feedback@oreilly.com

En los Capítulos 1-11, construimos un sistema para predecir los retrasos de los vuelos, con el fin de orientar a los viajeros sobre si tendrían posibilidades de llegar a sus reuniones ya programadas. Todo el desarrollo se realizó sobre un año de datos. En este capítulo, cambiaré el código para procesar el conjunto de datos completo.

Todos los fragmentos de código de este capítulo están disponibles en la carpeta 12_fulldataset del repositorio GitHub del libro.

Cuatro años de datos

El rendimiento del modelo final sólo puede evaluarse con datos realmente independientes. Dado que utilizamos nuestros datos "de prueba" para evaluar diferentes modelos a lo largo del proceso y realizar el ajuste de hiperparámetros, no podemos utilizar ninguno de los datos ingeridos originalmente para evaluar el rendimiento del modelo.

Pero, afortunadamente, no he utilizado todos los datos disponibles. Para mantener los conjuntos de datos lo suficientemente pequeños como para que las canalizaciones de Dataflow y los trabajos de entrenamiento de ML se completaran en un par de horas, he limitado todo mi trabajo hasta ahora a 2015. No he utilizado datos de 2016-2021 en el entrenamiento, la selección de modelos o el ajuste de hiperparámetros.

Arreglemos esto. Lo que voy a hacer es entrenar el modelo ML con datos de 2015-2018 y suponer que ponemos ...

Get Ciencia de Datos en la Plataforma en la Nube de Google, 2ª Edición now with the O’Reilly learning platform.

O’Reilly members experience books, live events, courses curated by job role, and more from O’Reilly and nearly 200 top publishers.