book

Algoritmos de dados com o Spark

by Mahmoud Parsian

April 2025

Intermediate to advanced

438 pages

10h 4m

Portuguese (Portugal, Brazil)

O'Reilly Media, Inc.

Book available

Read now

Unlock full access

Porque escrevi este livroA quem se destina este livroComo este livro está organizadoConvenções utilizadas neste livroUtilizar exemplos de códigoAprendizagem em linha da O'ReillyComo contactar-nosAgradecimentos
Porquê o Spark para a análise de dadosO ecossistema SparkArquitetura SparkO poder do PySparkArquitetura do PySparkAbstrações de dados do SparkExemplos de RDDOperações RDD do SparkExemplos de DataFrameUsando o PySpark ShellIniciando o PySpark ShellCriar um RDD a partir de uma coleçãoAgregação e fusão de valores de chavesFiltrando os elementos de um RDDAgrupar chaves semelhantesAgregação de valores para chaves semelhantesExemplo de ETL com DataFramesExtraçãoTransformaçãoCarregamentoResumo
Exemplo de contagem de bases de ADNO problema da contagem de bases de ADNFormato FASTADados de amostraSolução 1 para contagem de bases de ADNPasso 1: Cria um RDD[String] a partir da entradaPasso 2: Define uma função de mapeamentoPasso 3: Encontra as frequências das letras do ADNPrós e contras da solução 1Solução 2 para a contagem de bases de ADNPasso 1: Cria um RDD[String] a partir da entradaPasso 2: Define uma função de mapeamentoPasso 3: Descobre as frequências das letras do ADNPrós e contras da solução 2Solução de contagem de bases de ADN 3A transformação mapPartitions()Passo 1: Cria um RDD[String] a partir da entradaPasso 2: Define uma função para lidar com uma partiçãoPasso 3: Aplica a função personalizada a cada partiçãoPrós e contras da solução 3Resumo
Abstrações de dados e mapeadoresO que são transformações?Transformações preguiçosasA transformação map()Mapeador de DataFrameA transformação flatMap()map() Versus flatMap()Aplica flatMap() a um DataFrameA transformação mapValues()A transformação flatMapValues()A transformação mapPartitions()Manipulação de partições vaziasVantagens e desvantagensTransformação de DataFrames e mapPartitions()Resumo
Criação de RDDs de paresTransformações de reduçãoReduções do SparkExemplo de aquecimento simplesResolver com reduceByKey()Resolver com groupByKey()Resolver com aggregateByKey()Resolver com combineByKey()O que é um monoide?Exemplos de monóides e não monóidesO problema do filmeConjunto de dados de entrada a analisarA transformação aggregateByKey()Primeira solução utilizando aggregateByKey()Segunda solução utilizando aggregateByKey()Completa a solução PySpark usando groupByKey()Completa a solução PySpark usando reduceByKey()Completa a solução PySpark usando combineByKey()O passo de baralhar nas reduçõesEmbaralha o passo para groupByKey()Embaralha o passo para reduceByKey()Resumo
Introdução às partiçõesPartições no SparkGerir partiçõesParticionamento predefinidoParticionamento explícitoParticionamento físico para consultas SQLParticionamento físico de dados no SparkPartição como formato de textoPartição como formato ParquetComo consultar dados particionadosExemplo de Amazon AthenaResumo
Introdução aos gráficosA API GraphFramesComo usar GraphFramesFunções e atributos de GraphFramesAlgoritmos GraphFramesEncontrar triângulosProcura de motivosAplicações no mundo realAnálise de genesRecomendações sociaisCírculos do FacebookComponentes ligadosAnalisar os dados de vooResumo

Bases de dados relacionaisLê a partir de uma base de dadosEscrevendo um DataFrame em um banco de dadosLer ficheiros de textoLer e escrever ficheiros CSVLer ficheiros CSVEscrever ficheiros CSVLer e escrever ficheiros JSONLer ficheiros JSONEscrever ficheiros JSONLer e escrever no Amazon S3Lê a partir do Amazon S3Escreve no Amazon S3Leitura e escrita de ficheiros HadoopLer ficheiros de texto do HadoopEscrevendo arquivos de texto do HadoopLer e escrever HDFS SequenceFilesLeitura e escrita de ficheiros ParquetEscrever ficheiros ParquetLer ficheiros ParquetLer e escrever ficheiros AvroLer ficheiros AvroEscrever ficheiros AvroLê e escreve no MS SQL ServerEscreve no MS SQL ServerLê a partir do MS SQL ServerLer ficheiros de imagemCriar um DataFrame a partir de imagensResumo
Classifica o produtoCálculo do produto de classificaçãoFormalização do produto de classificaçãoExemplo de produto de classificaçãoSolução PySparkPageRankComputação iterativa do PageRankPersonaliza o PageRank no PySpark usando RDDsPersonaliza o PageRank no PySpark usando uma matriz de adjacênciaPageRank com GraphFramesResumo
Entrada-Mapa-SaídaSolução RDDSolução DataFrameFuncionalidade Flat MapperEntrada-Filtro-SaídaSolução RDDSolução DataFrameFiltro DataFrameInput-Map-Reduce-OutputSolução RDDSolução DataFrameInput-Multiple-Maps-Reduce-OutputSolução RDDSolução DataFrameInput-Map-Combiner-Reduce-OutputInput-MapPartitions-Reduce-OutputÍndice invertidoDeclaração do problemaEntradaSaídaSolução PySparkResumo
Combinação no mapeadorAlgoritmo básico do MapReduceCombinação no mapeador por registoCombinação no mapeador por partiçãoTop-10Top-N FormalizadoSolução PySparkDescobre os 10 mais baixosMínimoMáximoSolução 1: MapReduce clássicoSolução 2: OrdenaçãoSolução 3: mapPartitions() do SparkO padrão composto e os monóidesMonóidesExemplos monoidais e não monoidaisExemplo de MapReduce não monoideExemplo de MapReduce MonoidImplementação PySpark da Média MonoidalFunctores e MonóidesConclusão sobre a utilização de monóidesBinningOrdenaçãoResumo
Introdução à operação JoinJunta-te ao MapReduceFase do mapaFase do redutorImplementação em PySparkMap-Side Join usando RDDsMap-Side Join usando DataFramesPasso 1: Cria uma cache para os aeroportosPasso 2: Cria uma cache para as companhias aéreasPasso 3: Cria uma tabela de factosPasso 4: Aplicar a união do lado do mapaUniões eficientes usando filtros BloomIntrodução aos filtros BloomUm exemplo simples de filtro BloomFiltros Bloom em PythonUsando Bloom Filters no PySparkResumo
Introdução à engenharia de caraterísticasAdicionar novas funcionalidadesAplicação de UDFsCriar pipelinesBinarização de dadosImputaçãoTokenizaçãoTokenizerRegexTokenizerTokenização com um pipelineNormalizaçãoNormalizaçãoEscalonamento de uma coluna usando um pipelineUsar o MinMaxScaler em várias colunasNormalização usando o normalizadorIndexação de cadeias de caracteresAplicando StringIndexer a uma única colunaAplicar StringIndexer a várias colunasMontagem do vetorBaldeaçãoBucketizerQuantileDiscretizerTransformação de logaritmosCodificação de um pontoTF-IDFDestacadorSQLTransformerResumo

Content preview from Algoritmos de dados com o Spark

Capítulo 7. Interagindo com fontes de dados externas

Este trabalho foi traduzido com recurso a IA. Agradecemos o teu feedback e comentários: translation-feedback@oreilly.com

No Spark, para executar qualquer algoritmo, é necessário ler os dados de entrada de uma fonte de dados, aplicar o algoritmo na forma de um conjunto de transformações e ações do PySpark (expressas como um DAG) e, finalmente, escrever a saída desejada em uma fonte de dados de destino. Portanto, para escrever algoritmos com bom desempenho, é importante entender a leitura e a escrita de e para fontes de dados externas.

Nos capítulos anteriores, exploramos a interação com as fontes de dados incorporadas (RDDs e DataFrames) no Spark. Neste capítulo, vamos nos concentrar em como o Spark interage com fontes de dados externas.

Como mostra a Figura 7-1, o Spark pode ler dados de uma grande variedade de sistemas de armazenamento externo, como o sistema de arquivos Linux, Amazon S3, HDFS, tabelas Hive e bancos de dados relacionais (como Oracle, MySQL ou PostgreSQL) por meio de sua interface de fonte de dados. Este capítulo mostrará como ler dados e depois convertê-los em RDDs ou DataFrames para processamento posterior. Também mostrarei como os dados do Spark podem ser gravados de volta em sistemas de armazenamento externos, como arquivos, Amazon S3 e bancos de dados compatíveis com JDBC.

Figura 7-1. Fontes de dados ...

Become an O’Reilly member and get unlimited access to this title plus top books and audiobooks from O’Reilly and nearly 200 top publishers, thousands of courses curated by job role, 150+ live events each month,
and much more.

Start your free trial

Escala o aprendizado de máquina com o Spark

Publisher Resources

ISBN: 9798341642799Supplemental Content

Algoritmos de dados com o Spark

by Mahmoud Parsian

Capítulo 7. Interagindo com fontes de dados externas

Figura 7-1. Fontes de dados ...

Become an O’Reilly member and get unlimited access to this title plus top books and audiobooks from O’Reilly and nearly 200 top publishers, thousands of courses curated by job role, 150+ live events each month,
and much more.

You might also like

Escala o aprendizado de máquina com o Spark

Referência de bolso de pipelines de dados

Engenharia de dados financeiros

Fundamentos da visualização de dados

Publisher Resources

Capítulo 7. Interagindo com fontes de dados externas

Figura 7-1. Fontes de dados ...

Become an O’Reilly member and get unlimited access to this title plus top books and audiobooks from O’Reilly and nearly 200 top publishers, thousands of courses curated by job role, 150+ live events each month,and much more.

You might also like

Escala o aprendizado de máquina com o Spark

Referência de bolso de pipelines de dados

Engenharia de dados financeiros

Fundamentos da visualização de dados

Publisher Resources

Become an O’Reilly member and get unlimited access to this title plus top books and audiobooks from O’Reilly and nearly 200 top publishers, thousands of courses curated by job role, 150+ live events each month,
and much more.