Skip to Content
Algoritmos de dados com o Spark
book

Algoritmos de dados com o Spark

by Mahmoud Parsian
April 2025
Intermediate to advanced
438 pages
10h 4m
Portuguese (Portugal, Brazil)
O'Reilly Media, Inc.
Book available
Content preview from Algoritmos de dados com o Spark

Capítulo 7. Interagindo com fontes de dados externas

Este trabalho foi traduzido com recurso a IA. Agradecemos o teu feedback e comentários: translation-feedback@oreilly.com

No Spark, para executar qualquer algoritmo, é necessário ler os dados de entrada de uma fonte de dados, aplicar o algoritmo na forma de um conjunto de transformações e ações do PySpark (expressas como um DAG) e, finalmente, escrever a saída desejada em uma fonte de dados de destino. Portanto, para escrever algoritmos com bom desempenho, é importante entender a leitura e a escrita de e para fontes de dados externas.

Nos capítulos anteriores, exploramos a interação com as fontes de dados incorporadas (RDDs e DataFrames) no Spark. Neste capítulo, vamos nos concentrar em como o Spark interage com fontes de dados externas.

Como mostra a Figura 7-1, o Spark pode ler dados de uma grande variedade de sistemas de armazenamento externo, como o sistema de arquivos Linux, Amazon S3, HDFS, tabelas Hive e bancos de dados relacionais (como Oracle, MySQL ou PostgreSQL) por meio de sua interface de fonte de dados. Este capítulo mostrará como ler dados e depois convertê-los em RDDs ou DataFrames para processamento posterior. Também mostrarei como os dados do Spark podem ser gravados de volta em sistemas de armazenamento externos, como arquivos, Amazon S3 e bancos de dados compatíveis com JDBC.

Figura 7-1. Fontes de dados ...
Become an O’Reilly member and get unlimited access to this title plus top books and audiobooks from O’Reilly and nearly 200 top publishers, thousands of courses curated by job role, 150+ live events each month,
and much more.
Start your free trial

You might also like

Escala o aprendizado de máquina com o Spark

Escala o aprendizado de máquina com o Spark

Adi Polak

Publisher Resources

ISBN: 9798341642799Supplemental Content