Capítulo 9. Spark MLlib y ML

Este trabajo se ha traducido utilizando IA. Agradecemos tus opiniones y comentarios: translation-feedback@oreilly.com

Spark tiene dos bibliotecas de aprendizaje automático -Spark MLlib y Spark ML- con API muy diferentes, pero algoritmos similares.Estas bibliotecas de aprendizaje automático heredan muchas de las consideraciones de rendimiento de las API de RDD y de Conjuntos de Datos en las que se basan, pero también tienen sus propias consideraciones. MLlib es la primera de las dos bibliotecas y está entrando en un modo de mantenimiento/corrección de errores únicamente. Normalmente omitiríamos hablar de Spark MLlib y nos centraríamos en la nueva API; sin embargo, para los algoritmos existentes no toda la funcionalidad se ha portado a la nueva API Spark ML.Spark ML es la biblioteca de aprendizaje automático más reciente, inspirada en scikit-learn, y es donde se está produciendo el nuevo desarrollo activo.

Elegir entre Spark MLlib y Spark ML

A primera vista, la diferencia más obvia entre MLlib y ML son los tipos de datos con los que trabajan, ya que MLlib admite RDDs y ML admite DataFrames y Datasets.La diferencia de formato de datos no es tan importante, ya que ambos trabajan con RDDs y Datasets de vectores, que se representan y convierten fácilmente entre los formatos RDD y Dataset.

Desde el punto de vista de la filosofía de diseño, la MLlib de Spark se centra en proporcionar un conjunto básico de algoritmos para que la gente los utilice, dejando en ...

Get Chispa de alto rendimiento now with the O’Reilly learning platform.

O’Reilly members experience books, live events, courses curated by job role, and more from O’Reilly and nearly 200 top publishers.