Kapitel 11. Reaktion auf Vorfälle

Diese Arbeit wurde mithilfe von KI übersetzt. Wir freuen uns über dein Feedback und deine Kommentare: translation-feedback@oreilly.com

In dieser Welt passieren manchmal schlimme Dinge, auch mit guten Daten und Systemen. Festplatten schlagen fehl. Dateien werden beschädigt. Maschinen gehen kaputt. Netzwerke fallen aus. API-Aufrufe geben Fehler zurück. Daten bleiben hängen oder verändern sich unmerklich. Modelle, die einst genau und repräsentativ waren, werden weniger genau. Auch die Welt um uns herum kann sich verändern: Dinge, die vorher nie oder fast nie passiert sind, können alltäglich werden; auch das hat Auswirkungen auf unsere Modelle.

In diesem Buch geht es vor allem darum, ML-Systeme zu bauen, die diese Dinge verhindern oder, wenn sie doch passieren - und das werden sie -, die Situation richtig erkennen und entschärfen. In diesem Kapitel geht es vor allem darum, wie man reagiert, wenn ML-Systemen schlimme, dringende Dinge zustoßen. Vielleicht kennst du dich schon damit aus, wie Teams mit Systemausfällen oder anderen Problemen umgehen: Das nennt man Incident Management, und es gibt unter bewährte Methoden für das Management von Incidents, die bei vielen Computersystemen auftreten.1

Wir behandeln diese allgemein anwendbaren Praktiken, konzentrieren uns aber darauf, wie man Ausfälle von ML-Systemen verwaltet, und insbesondere darauf, wie sich diese Ausfälle und ihr Management von anderen Ausfällen von verteilten Computersystemen unterscheiden. ...

Get Zuverlässiges maschinelles Lernen now with the O’Reilly learning platform.

O’Reilly members experience books, live events, courses curated by job role, and more from O’Reilly and nearly 200 top publishers.