Capítulo 11. Gestión, Implementación y Escalado de Canalizaciones de Aprendizaje Automático con Apache Spark
Este trabajo se ha traducido utilizando IA. Agradecemos tus opiniones y comentarios: translation-feedback@oreilly.com
En el capítulo anterior, vimos cómo construir cadenas de aprendizaje automático con MLlib. Este capítulo se centrará en cómo gestionar e implementar los modelos que entrenes. Al final de este capítulo, serás capaz de utilizar MLflow para rastrear, reproducir y desplegar tus modelos MLlib, discutir las dificultades y compensaciones entre los diversos escenarios de implementación de modelos, y diseñar soluciones de aprendizaje automático escalables. Pero antes de hablar del despliegue de modelos, vamos a discutir algunas buenas prácticas de gestión de modelos para que estén listos para su implementación.
Gestión de modelos
Antes de implementar tu modelo de aprendizaje automático, debes asegurarte de que puedes reproducir y seguir el rendimiento del modelo. Para nosotros, la reproducibilidad de extremo a extremo de las soluciones de aprendizaje automático significa que necesitamos poder reproducir el código que generó un modelo, el entorno utilizado en el entrenamiento, los datos con los que se entrenó y el propio modelo. A todos los científicos de datos les encanta recordarte que establezcas tus semillas para poder reproducir tus experimentos (por ejemplo, para la división entrenamiento/prueba, cuando se utilizan modelos con aleatoriedad inherente, como los ...
Get Aprender Spark, 2ª Edición now with the O’Reilly learning platform.
O’Reilly members experience books, live events, courses curated by job role, and more from O’Reilly and nearly 200 top publishers.