Kapitel 12. Der vollständige Datensatz

Diese Arbeit wurde mithilfe von KI übersetzt. Wir freuen uns über dein Feedback und deine Kommentare: translation-feedback@oreilly.com

In den Kapiteln 1-11 haben wir ein System zur Vorhersage von Flugverspätungen entwickelt, um Reisenden Hinweise darauf zu geben, ob sie es wahrscheinlich zu ihren bereits geplanten Terminen schaffen werden. Die gesamte Entwicklung wurde mit Daten aus einem Jahr durchgeführt. In diesem Kapitel werde ich den Code ändern, um den gesamten Datensatz zu verarbeiten.

Alle Codeschnipsel in diesem Kapitel sind im Ordner 12_fulldataset im GitHub-Repository des Buches verfügbar.

Daten aus vier Jahren

Wie gut das endgültige Modell abschneidet, kann nur mit wirklich unabhängigen Daten bewertet werden. Da wir unsere "Testdaten" verwendet haben, um verschiedene Modelle zu evaluieren und die Hyperparameter zu optimieren, können wir die Leistung des Modells nicht anhand der ursprünglich eingegebenen Daten bewerten.

Glücklicherweise habe ich aber nicht alle verfügbaren Daten verwendet. Um die Datensätze so klein zu halten, dass die Dataflow-Pipelines und ML-Trainingsaufträge in ein paar Stunden abgeschlossen sind, habe ich meine Arbeit bisher auf 2015 beschränkt. Ich habe keine Daten aus den Jahren 2016-2021 für das Training, die Modellauswahl oder die Abstimmung der Hyperparameter verwendet.

Lass uns das lösen. Ich werde das ML-Modell mit Daten aus den Jahren 2015-2018 trainieren und davon ausgehen, dass wir das Modell Ende ...

Get Data Science auf der Google Cloud Platform, 2. now with the O’Reilly learning platform.

O’Reilly members experience books, live events, courses curated by job role, and more from O’Reilly and nearly 200 top publishers.