Capítulo 8. Algoritmos de classificação
Este trabalho foi traduzido com recurso a IA. Agradecemos o teu feedback e comentários: translation-feedback@oreilly.com
Este capítulo introduz os dois algoritmos de classificação seguintes e apresenta as suas implementações associadas em PySpark:
- Classifica o produto
-
Este algoritmo encontra as classificações de itens (como os genes) entre todos os itens. Foi originalmente desenvolvido para a deteção de genes diferencialmente expressos em experiências de microarray replicadas, mas desde então alcançou uma aceitação generalizada e é agora utilizado de forma mais ampla, incluindo na aprendizagem automática. O Spark não fornece uma API para o produto de classificação, por isso apresentarei uma solução personalizada.
- PageRank
-
O PageRank é um algoritmo iterativo para medir a importância dos nós num determinado grafo. Este algoritmo é muito utilizado pelos motores de busca (como o Google) para determinar a importância de cada página Web (documento) em relação a todas as páginas Web (um conjunto de documentos). Em resumo, dado um conjunto de páginas Web, o algoritmo PageRank calcula uma classificação de qualidade para cada página. A API do Spark oferece várias soluções para o algoritmo PageRank. Apresentar-te-ei uma delas, utilizando a API GraphFrames, bem como duas soluções personalizadas.
Classifica o produto
O produto de classificação ...