Aprendizaje automático fiable
by Cathy Chen, Niall Richard Murphy, Kranti Parisa, D. Sculley, Todd Underwood
Capítulo 11. Respuesta a incidentes
Este trabajo se ha traducido utilizando IA. Agradecemos tus opiniones y comentarios: translation-feedback@oreilly.com
En este mundo, a veces pasan cosas malas, incluso a los datos y sistemas buenos. Los discos fallan. Los archivos se corrompen. Las máquinas se averían. Las redes se caen. Las llamadas a la API devuelven errores. Los datos se atascan o cambian sutilmente. Los modelos que antes eran precisos y representativos dejan de serlo. El mundo también puede cambiar a nuestro alrededor: cosas que antes nunca, o casi nunca, ocurrían pueden convertirse en habituales; esto a su vez repercute en nuestros modelos.
Gran parte de este libro trata sobre la construcción de sistemas de ML que eviten que ocurran estas cosas, o que cuando ocurran -y ocurrirán- reconozcan la situación correctamente y la mitiguen. En concreto, este capítulo trata de cómo responder cuando a los sistemas de ML les ocurren cosas malas y urgentes. Puede que ya estés familiarizado con la forma en que los equipos gestionan los sistemas que se caen o que tienen algún otro problema: esto se conoce como gestión de incidentes, y en existen buenas prácticas para gestionar incidentes que son comunes a muchos sistemas informáticos.1
Abarcamos estas prácticas de aplicación general, pero nos centramos en cómo gestionar las interrupciones de los sistemas de ML y, en particular, en cómo esas interrupciones y su gestión difieren de las interrupciones de otros sistemas informáticos distribuidos. ...
Become an O’Reilly member and get unlimited access to this title plus top books and audiobooks from O’Reilly and nearly 200 top publishers, thousands of courses curated by job role, 150+ live events each month,
and much more.
Read now
Unlock full access