Capítulo 6. Algoritmos de grafos
Este trabalho foi traduzido com recurso a IA. Agradecemos o teu feedback e comentários: translation-feedback@oreilly.com
Até agora, concentrámo-nos principalmente nos dados de registo, que são normalmente armazenados em ficheiros simples ou bases de dados relacionais e podem ser representados como uma matriz (um conjunto de linhas com colunas nomeadas). Agora, vamos centrar a nossa atenção nos dados baseados em gráficos, que representam as relações entre dois ou mais pontos de dados. Um exemplo comum são os dados de redes sociais: por exemplo, se "Alex" é "amigo" de "Jane" e "Jane" é "amiga" de "Bob", estas relações formam um gráfico. Os dados de companhias aéreas/voos são outro exemplo comum de dados de gráficos; exploraremos estes dois exemplos (e outros) neste capítulo.
As estruturas de dados são formas específicas de organizar e armazenar dados em computadores para que possam ser utilizados de forma eficaz. Para além das estruturas de dados lineares, como aquelas com que trabalhámos nos capítulos anteriores (matrizes, listas, tuplas, etc.), estas incluem estruturas não lineares, como árvores, mapas de hash e gráficos.
Este capítulo apresenta o GraphFrames, um poderoso pacote externo para o Spark que fornece APIs para representar grafos direcionados e não direcionados, consultar e analisar grafos e executar algoritmos em grafos. Começaremos explorando os grafos e para que eles são usados, depois veremos como usar a API GraphFrames no PySpark ...