Kapitel 8. Auswählen und Debuggen von XGBoost-Modellen
Diese Arbeit wurde mithilfe von KI übersetzt. Wir freuen uns über dein Feedback und deine Kommentare: translation-feedback@oreilly.com
Die Methoden, mit denen Datenwissenschaftler die Leistung eines Modells in der realen Welt messen, sind meist unzureichend. In der Studie "Underspecification Presents Challenges for Credibility in Modern Machine Learning", die von 40 Forschern von Google und anderen führenden Forschungsinstituten für maschinelles Lernen verfasst wurde, heißt es: "ML-Modelle zeigen oft ein unerwartet schlechtes Verhalten, wenn sie in realen Domänen eingesetzt werden. Ein grundlegendes Problem ist, dass wir die Leistung messen, als ob wir Forschungsarbeiten schreiben würden, egal wie komplex und risikoreich das Einsatzszenario ist. Testdatenmessungen wie Genauigkeit oder Fläche unter der Kurve (AUC) sagen nichts über Fairness, Datenschutz, Sicherheit oder Stabilität aus. Diese einfachen Messungen der Vorhersagequalität oder des Fehlers auf statischen Testsätzen sind für das Risikomanagement nicht aussagekräftig genug. Sie korrelieren nur mit der Leistung in der Realität und sind keine Garantie für eine gute Leistung im Einsatz. Im Klartext: Wir sollten uns mehr um die In-vivo-Leistung und das Risikomanagement kümmern als um die Leistung von In-silico-Testdaten, denn in der angewandten Praxis von ML geht es in erster Linie darum, gute Entscheidungen in der realen Welt zu treffen.
In diesem Kapitel werden mehrere ...
Get Maschinelles Lernen für hochriskante Anwendungen now with the O’Reilly learning platform.
O’Reilly members experience books, live events, courses curated by job role, and more from O’Reilly and nearly 200 top publishers.