Skip to Content
Algoritmos de dados com o Spark
book

Algoritmos de dados com o Spark

by Mahmoud Parsian
April 2025
Intermediate to advanced
438 pages
10h 4m
Portuguese (Portugal, Brazil)
O'Reilly Media, Inc.
Book available
Content preview from Algoritmos de dados com o Spark

Capítulo 8. Algoritmos de classificação

Este trabalho foi traduzido com recurso a IA. Agradecemos o teu feedback e comentários: translation-feedback@oreilly.com

Este capítulo introduz os dois algoritmos de classificação seguintes e apresenta as suas implementações associadas em PySpark:

Classifica o produto

Este algoritmo encontra as classificações de itens (como os genes) entre todos os itens. Foi originalmente desenvolvido para a deteção de genes diferencialmente expressos em experiências de microarray replicadas, mas desde então alcançou uma aceitação generalizada e é agora utilizado de forma mais ampla, incluindo na aprendizagem automática. O Spark não fornece uma API para o produto de classificação, por isso apresentarei uma solução personalizada.

PageRank

O PageRank é um algoritmo iterativo para medir a importância dos nós num determinado grafo. Este algoritmo é muito utilizado pelos motores de busca (como o Google) para determinar a importância de cada página Web (documento) em relação a todas as páginas Web (um conjunto de documentos). Em resumo, dado um conjunto de páginas Web, o algoritmo PageRank calcula uma classificação de qualidade para cada página. A API do Spark oferece várias soluções para o algoritmo PageRank. Apresentar-te-ei uma delas, utilizando a API GraphFrames, bem como duas soluções personalizadas.

Classifica o produto

O produto de classificação ...

Become an O’Reilly member and get unlimited access to this title plus top books and audiobooks from O’Reilly and nearly 200 top publishers, thousands of courses curated by job role, 150+ live events each month,
and much more.
Start your free trial

You might also like

Escala o aprendizado de máquina com o Spark

Escala o aprendizado de máquina com o Spark

Adi Polak

Publisher Resources

ISBN: 9798341642799Supplemental Content