Kapitel 33. Den Schritt "Datenbeschaffung" überdenken

Diese Arbeit wurde mithilfe von KI übersetzt. Wir freuen uns über dein Feedback und deine Kommentare: translation-feedback@oreilly.com

Phil Bangayan

Meine Hauptaufgabe als Datenwissenschaftler ist es, genaue Modelle zu erstellen, was die Beschaffung geeigneter Daten voraussetzt. Dieser Schritt der Datenbeschaffung steht am Anfang des Data Science-Prozesses, der mir und allen angehenden Data Scientists seit den späten 1990er Jahren in Form von CRISP-DM (Cross-Industry Standard Process for Data Mining) beigebracht wurde. Nachdem ich sowohl auf der Kunden- als auch auf der Anbieterseite gearbeitet habe, habe ich festgestellt, dass diesem Schritt nicht genügend Aufmerksamkeit geschenkt wird, so dass Datenwissenschaftler/innen in die Falle tappen, wenn sie nicht verstehen, woher die Daten stammen, wenn sie die gesammelten Daten für einen anderen Zweck missbrauchen oder wenn sie Proxy-Daten auf möglicherweise unethische Weise verwenden.

Der Data-Science-Prozess, den ich gelernt habe, ähnelt dem von Joe Blitzstein und Hanspeter Pfister in Harvard dokumentierten Prozess: (1) eine interessante Frage stellen, (2) Daten sammeln, (3) die Daten untersuchen, (4) die Daten modellieren und (5) die Ergebnisse kommunizieren und visualisieren. Der ähnliche Prozess CRISP-DM, der im Kundenbeziehungsmanagement eine ...

Get 97 Dinge über Ethik, die jeder in der Datenwissenschaft wissen sollte now with the O’Reilly learning platform.

O’Reilly members experience books, live events, courses curated by job role, and more from O’Reilly and nearly 200 top publishers.