Capítulo 25. Preprocesamiento e ingeniería de rasgos

Este trabajo se ha traducido utilizando IA. Agradecemos tus opiniones y comentarios: translation-feedback@oreilly.com

Cualquier científico de datos de que se precie sabe que uno de los mayores retos (y sumideros de tiempo) en el análisis avanzado es el preprocesamiento. No es que sea una programación especialmente complicada, sino que requiere un profundo conocimiento de los datos con los que trabajas y una comprensión de lo que necesita tu modelo para aprovechar con éxito esos datos. Este capítulo cubre los detalles de cómo puedes utilizar Spark para realizar el preprocesamiento y la ingeniería de características. Repasaremos los requisitos básicos que deberás cumplir para entrenar un modelo MLlib en función de cómo estén estructurados tus datos. A continuación, hablaremos de las distintas herramientas que Spark pone a tu disposición para realizar este tipo de trabajo.

Formatear los modelos según tu caso práctico

Para preprocesar datos para las distintas herramientas de análisis avanzado de Spark, debes tener en cuenta tu objetivo final. La siguiente lista recorre los requisitos de la estructura de datos de entrada para cada tarea de análisis avanzado en MLlib:

  • En el caso de la mayoría de los algoritmos de clasificación y regresión, quieres introducir tus datos en una columna de tipo Double para representar la etiqueta y una columna de tipo Vector (densa o dispersa) para representar las características.

  • En el caso de la ...

Get Spark: La Guía Definitiva now with the O’Reilly learning platform.

O’Reilly members experience books, live events, courses curated by job role, and more from O’Reilly and nearly 200 top publishers.