Capítulo 10. Aprendizaje automático con MLlib
Este trabajo se ha traducido utilizando IA. Agradecemos tus opiniones y comentarios: translation-feedback@oreilly.com
Hasta este punto, nos hemos centrado en las cargas de trabajo de ingeniería de datos con Apache Spark. La ingeniería de datos suele ser un paso previo a la preparación de tus datos para tareas de aprendizaje automático (ML), que será el tema central de este capítulo. Vivimos en una era en la que las aplicaciones de aprendizaje automático e inteligencia artificial forman parte integral de nuestras vidas. Es probable que, nos demos cuenta o no, todos los días entremos en contacto con modelos de ML para fines tales como recomendaciones de compras y anuncios en línea, detección de fraudes, clasificación, reconocimiento de imágenes, coincidencia de patrones, etc. Estos modelos de ML impulsan importantes decisiones empresariales para muchas empresas. Según este estudio de McKinsey, el 35% de lo que compran los consumidores en Amazon y el 75% de lo que ven en Netflix se rige por recomendaciones de productos basadas en el aprendizaje automático. Construir un modelo que funcione bien puede hacer que las empresas triunfen o fracasen.
En este capítulo te ayudaremos a empezar a construir modelos de ML utilizando MLlib, la biblioteca de aprendizaje automático de facto en Apache Spark. Comenzaremos con una breve introducción al aprendizaje automático y, a continuación, trataremos las buenas prácticas para el ML distribuido y la ingeniería ...