Kapitel 2. Daten in die Cloud einspeisen

Diese Arbeit wurde mithilfe von KI übersetzt. Wir freuen uns über dein Feedback und deine Kommentare: translation-feedback@oreilly.com

In Kapitel 1 haben wir uns mit der Idee befasst, datengesteuert zu entscheiden, ob ein Treffen abgesagt werden soll. Wir haben uns für ein probabilistisches Entscheidungskriterium entschieden: Wir sagen das Treffen mit einem Kunden ab, wenn die Wahrscheinlichkeit, dass der Flug innerhalb von 15 Minuten nach der geplanten Ankunftszeit ankommt, weniger als 70 % beträgt. Um die Ankunftsverspätung in Abhängigkeit von verschiedenen Attributen des Fluges zu modellieren, benötigen wir historische Daten, die eine große Anzahl von Flügen abdecken. Historische Daten, die diese Informationen ab 1987 enthalten, sind beim US Bureau of Transportation Statistics (BTS) erhältlich. Einer der Gründe, warum die Regierung diese Daten erfasst, ist die Überwachung des Anteils der pünktlichen Flüge einer Fluggesellschaft (definiert als Flüge, die mit weniger als 15 Minuten Verspätung ankommen), um die Fluggesellschaften zur Verantwortung ziehen zu können.1 Da der wichtigste Anwendungsfall die Berechnung der Pünktlichkeit ist, heißt der Datensatz, der die Flugverspätungen erfasst, Airline On-Time Performance Data. Das ist der Datensatz, den wir in diesem Buch verwenden werden.

Alle Codeschnipsel in diesem Kapitel sind im Ordner 02_ingest des GitHub-Repositorys des Buches verfügbar. Wie du das Repository klonst, erfährst du im letzten ...

Get Data Science auf der Google Cloud Platform, 2. now with the O’Reilly learning platform.

O’Reilly members experience books, live events, courses curated by job role, and more from O’Reilly and nearly 200 top publishers.