Capítulo 7. Interagindo com fontes de dados externas
Este trabalho foi traduzido com recurso a IA. Agradecemos o teu feedback e comentários: translation-feedback@oreilly.com
No Spark, para executar qualquer algoritmo, é necessário ler os dados de entrada de uma fonte de dados, aplicar o algoritmo na forma de um conjunto de transformações e ações do PySpark (expressas como um DAG) e, finalmente, escrever a saída desejada em uma fonte de dados de destino. Portanto, para escrever algoritmos com bom desempenho, é importante entender a leitura e a escrita de e para fontes de dados externas.
Nos capítulos anteriores, exploramos a interação com as fontes de dados incorporadas (RDDs e DataFrames) no Spark. Neste capítulo, vamos nos concentrar em como o Spark interage com fontes de dados externas.
Como mostra a Figura 7-1, o Spark pode ler dados de uma grande variedade de sistemas de armazenamento externo, como o sistema de arquivos Linux, Amazon S3, HDFS, tabelas Hive e bancos de dados relacionais (como Oracle, MySQL ou PostgreSQL) por meio de sua interface de fonte de dados. Este capítulo mostrará como ler dados e depois convertê-los em RDDs ou DataFrames para processamento posterior. Também mostrarei como os dados do Spark podem ser gravados de volta em sistemas de armazenamento externos, como arquivos, Amazon S3 e bancos de dados compatíveis com JDBC.