Capítulo 8. Algoritmos de clasificación
Este trabajo se ha traducido utilizando IA. Agradecemos tus opiniones y comentarios: translation-feedback@oreilly.com
Este capítulo introduce los dos algoritmos de clasificación siguientes y presenta sus implementaciones asociadas en PySpark:
- Clasificar producto
-
Este algoritmo encuentra los rangos de los elementos (como los genes) entre todos los elementos. Se desarrolló originalmente para la detección de genes expresados diferencialmente en experimentos de microarrays replicados, pero desde entonces ha logrado una amplia aceptación y ahora se utiliza más ampliamente, incluso en el aprendizaje automático. Spark no proporciona una API para el producto rank, por lo que presentaré una solución personalizada.
- PageRank
-
PageRank es un algoritmo iterativo para medir la importancia de los nodos de un grafo dado. Este algoritmo es muy utilizado por los motores de búsqueda (como Google) para hallar la importancia de cada página web (documento) en relación con todas las páginas web (un conjunto de documentos). En pocas palabras, dado un conjunto de páginas web, el algoritmo PageRank calcula una clasificación de calidad para cada página. La API Spark ofrece múltiples soluciones para el algoritmo PageRank. Presentaré una de ellas, utilizando la API GraphFrames, así como dos soluciones personalizadas.
Rango Producto
El producto de rango ...
Get Algoritmos de datos con Spark now with the O’Reilly learning platform.
O’Reilly members experience books, live events, courses curated by job role, and more from O’Reilly and nearly 200 top publishers.