Capítulo 25. Preprocesamiento e ingeniería de rasgos
Este trabajo se ha traducido utilizando IA. Agradecemos tus opiniones y comentarios: translation-feedback@oreilly.com
Cualquier científico de datos de que se precie sabe que uno de los mayores retos (y sumideros de tiempo) en el análisis avanzado es el preprocesamiento. No es que sea una programación especialmente complicada, sino que requiere un profundo conocimiento de los datos con los que trabajas y una comprensión de lo que necesita tu modelo para aprovechar con éxito esos datos. Este capítulo cubre los detalles de cómo puedes utilizar Spark para realizar el preprocesamiento y la ingeniería de características. Repasaremos los requisitos básicos que deberás cumplir para entrenar un modelo MLlib en función de cómo estén estructurados tus datos. A continuación, hablaremos de las distintas herramientas que Spark pone a tu disposición para realizar este tipo de trabajo.
Formatear los modelos según tu caso práctico
Para preprocesar datos para las distintas herramientas de análisis avanzado de Spark, debes tener en cuenta tu objetivo final. La siguiente lista recorre los requisitos de la estructura de datos de entrada para cada tarea de análisis avanzado en MLlib:
-
En el caso de la mayoría de los algoritmos de clasificación y regresión, quieres introducir tus datos en una columna de tipo
Double
para representar la etiqueta y una columna de tipoVector
(densa o dispersa) para representar las características. -
En el caso de la ...
Get Spark: La Guía Definitiva now with the O’Reilly learning platform.
O’Reilly members experience books, live events, courses curated by job role, and more from O’Reilly and nearly 200 top publishers.