Capítulo 14. Observabilidad y monitoreo de los sistemas de IA
Este trabajo se ha traducido utilizando IA. Agradecemos tus opiniones y comentarios: translation-feedback@oreilly.com
Si tienes la suerte de que tu sistema de IA sea pequeño y tenga pocas partes móviles, una sola persona podría comprenderlo lo suficientemente bien como para detectar, diagnosticar y solucionar rápidamente cualquier problema. Sin embargo, todos los sistemas de software exitosos crecen en complejidad (¡crecimiento descontrolado de funciones!) y se necesita soporte técnico para detectar y diagnosticar problemas operativos. En resumen, necesitarás observabilidad y monitoreo para tu sistema de IA.
La observabilidad se basa en dos pilares fundamentales: las métricas y el registro. Las métricas son mediciones numéricas del rendimiento de los servicios de infraestructura y los procesos de aprendizaje automático. Algunos ejemplos de métricas comunes son el rendimiento de los modelos, la calidad de los datos, la latencia, el rendimiento, los KPI y los costes. Los registros son salidas de texto estructuradas y no estructuradas y trazas de los servicios de infraestructura y los procesos de aprendizaje automático que proporcionan información sobre su estado interno, trazas de errores y rendimiento detallado. Las métricas son los componentes básicos de los SLO y los sistemas de IA elásticos que escalan automáticamente los recursos que utilizan. Los registros son fundamentales para todo, desde la detección de errores ...