Capítulo 16. Servicio de Orquestación de Canalizaciones
Este trabajo se ha traducido utilizando IA. Agradecemos tus opiniones y comentarios: translation-feedback@oreilly.com
Hasta ahora, en la fase de operacionalización, hemos optimizado las consultas y programas individuales, y ahora es el momento de programarlos y ejecutarlos en producción. Una instancia en tiempo de ejecución de una consulta o programa se denomina trabajo. La programación de los trabajos debe tener en cuenta las dependencias adecuadas. Por ejemplo, si un trabajo lee datos de una tabla específica, no puede ejecutarse hasta que el trabajo anterior que rellena la tabla haya finalizado. Para generalizar, la cadena de trabajos debe organizarse en una secuencia específica, desde la ingesta hasta la preparación y el procesamiento (como se ilustra en la Figura 16-1).
La orquestación de procesos de trabajo para el procesamiento de datos y ML tiene varios puntos problemáticos. En primer lugar, definir y gestionar las dependencias entre los trabajos es ad hoc y propenso a errores. Los usuarios de datos tienen que especificar estas dependencias y controlarlas mediante versiones a lo largo del ciclo de vida de la evolución de la canalización. En segundo ...
Get La hoja de ruta de los datos de autoservicio now with the O’Reilly learning platform.
O’Reilly members experience books, live events, courses curated by job role, and more from O’Reilly and nearly 200 top publishers.