Capítulo 2. Ingesta de datos en la nube

Este trabajo se ha traducido utilizando IA. Agradecemos tus opiniones y comentarios: translation-feedback@oreilly.com

En el Capítulo 1, exploramos la idea de decidir si cancelar una reunión en función de los datos. Nos decidimos por un criterio de decisión probabilístico: cancelar la reunión con un cliente si la probabilidad de que el vuelo llegara dentro de los 15 minutos siguientes a la hora de llegada prevista era inferior al 70%. Para modelizar el retraso en la llegada teniendo en cuenta una serie de atributos sobre el vuelo, necesitamos datos históricos que abarquen un gran número de vuelos. Los datos históricos que incluyen esta información a partir de 1987 están disponibles en la Oficina de Estadísticas de Transporte de EEUU (BTS). Una de las razones por las que el gobierno recopila estos datos es para monitorear la fracción de vuelos de una compañía aérea que son puntuales (definidos como vuelos que llegan con menos de 15 minutos de retraso), para poder exigir responsabilidades a las compañías aéreas.1 Dado que el caso de uso clave es calcular el rendimiento puntual, el conjunto de datos que recoge los retrasos de los vuelos se denomina Datos de Rendimiento Puntual de las Compañías Aéreas. Es el conjunto de datos que utilizaremos en este libro.

Todos los fragmentos de código de este capítulo están disponibles en la carpeta 02_ingest del repositorio GitHub del libro. Consulta la última sección del Capítulo 1 para obtener instrucciones ...

Get Ciencia de Datos en la Plataforma en la Nube de Google, 2ª Edición now with the O’Reilly learning platform.

O’Reilly members experience books, live events, courses curated by job role, and more from O’Reilly and nearly 200 top publishers.