Chapitre 8. Algorithmes de classement
Ce chapitre introduit les deux algorithmes de classement suivants et présente leurs implémentations associées dans PySpark :
- Ranger le produit
-
Cet algorithme trouve les rangs des éléments (tels que les gènes) parmi tous les éléments. Il a d'abord été développé pour la détection des gènes différentiellement exprimés dans les expériences répétées de microréseaux, mais il s'est depuis largement imposé et est maintenant utilisé plus largement, y compris dans l'apprentissage automatique. Spark ne fournit pas d'API pour le produit rank, je vais donc présenter une solution personnalisée.
- PageRank
-
PageRank est un algorithme itératif permettant de mesurer l'importance des nœuds dans un graphe donné. Cet algorithme est très utilisé par les moteurs de recherche (tels que Google) pour déterminer l'importance de chaque page Web (document) par rapport à l'ensemble des pages Web (un ensemble de documents). En bref, étant donné un ensemble de pages web, l'algorithme PageRank calcule un classement de qualité pour chaque page. L'API Spark propose de multiples solutions pour l'algorithme PageRank. Je présenterai l'une d'entre elles, qui utilise l'API GraphFrames, ainsi que deux solutions personnalisées.
Rang Produit
Le produit ...
Become an O’Reilly member and get unlimited access to this title plus top books and audiobooks from O’Reilly and nearly 200 top publishers, thousands of courses curated by job role, 150+ live events each month,
and much more.
Read now
Unlock full access