Capítulo 9. Aprendizaje automático con TensorFlow en Vertex AI
Este trabajo se ha traducido utilizando IA. Agradecemos tus opiniones y comentarios: translation-feedback@oreilly.com
En el Capítulo 7, construimos un modelo de aprendizaje automático en Spark, pero nos encontramos con problemas al intentar escalarlo y hacerlo operativo. Pudimos resolver el problema de escalabilidad utilizando BigQuery ML en el Capítulo 8, pero los problemas de operacionalización aún persisten. Además, aunque BigQuery ML era escalable, no pudimos construir el modelo ML más expresivo posible. En resumen, identificamos cuatro retos:
-
La codificación en un solo paso de columnas categóricas provocó una explosión del tamaño del conjunto de datos debido al aumento del tamaño de las columnas. BigQuery ML era capaz de manejar esto, pero Spark no.
-
Las incrustaciones habrían implicado una contabilidad especial en Spark, y esto no era una opción en BigQuery ML.
-
Poner el modelo en producción requiere que la biblioteca de aprendizaje automático sea portátil a entornos más allá del clúster Hadoop o el almacén de datos BigQuery en el que se entrena el modelo.
-
Evitar el sesgo de servicio de formación cuando se utiliza una función agregada de ventana temporal requiere poder utilizar el mismo código de preparación de datos tanto para los datos históricos (que son batch) como para los datos en tiempo real (que son streaming).
Resolveremos el cuarto problema, el de los agregados con ventana de tiempo, en el Capítulo ...
Get Ciencia de Datos en la Plataforma en la Nube de Google, 2ª Edición now with the O’Reilly learning platform.
O’Reilly members experience books, live events, courses curated by job role, and more from O’Reilly and nearly 200 top publishers.