book

Algoritmos de dados com o Spark

by Mahmoud Parsian

April 2025

Intermediate to advanced

438 pages

10h 4m

Portuguese (Portugal, Brazil)

O'Reilly Media, Inc.

Book available

Read now

Unlock full access

Porque escrevi este livroA quem se destina este livroComo este livro está organizadoConvenções utilizadas neste livroUtilizar exemplos de códigoAprendizagem em linha da O'ReillyComo contactar-nosAgradecimentos
Porquê o Spark para a análise de dadosO ecossistema SparkArquitetura SparkO poder do PySparkArquitetura do PySparkAbstrações de dados do SparkExemplos de RDDOperações RDD do SparkExemplos de DataFrameUsando o PySpark ShellIniciando o PySpark ShellCriar um RDD a partir de uma coleçãoAgregação e fusão de valores de chavesFiltrando os elementos de um RDDAgrupar chaves semelhantesAgregação de valores para chaves semelhantesExemplo de ETL com DataFramesExtraçãoTransformaçãoCarregamentoResumo
Exemplo de contagem de bases de ADNO problema da contagem de bases de ADNFormato FASTADados de amostraSolução 1 para contagem de bases de ADNPasso 1: Cria um RDD[String] a partir da entradaPasso 2: Define uma função de mapeamentoPasso 3: Encontra as frequências das letras do ADNPrós e contras da solução 1Solução 2 para a contagem de bases de ADNPasso 1: Cria um RDD[String] a partir da entradaPasso 2: Define uma função de mapeamentoPasso 3: Descobre as frequências das letras do ADNPrós e contras da solução 2Solução de contagem de bases de ADN 3A transformação mapPartitions()Passo 1: Cria um RDD[String] a partir da entradaPasso 2: Define uma função para lidar com uma partiçãoPasso 3: Aplica a função personalizada a cada partiçãoPrós e contras da solução 3Resumo
Abstrações de dados e mapeadoresO que são transformações?Transformações preguiçosasA transformação map()Mapeador de DataFrameA transformação flatMap()map() Versus flatMap()Aplica flatMap() a um DataFrameA transformação mapValues()A transformação flatMapValues()A transformação mapPartitions()Manipulação de partições vaziasVantagens e desvantagensTransformação de DataFrames e mapPartitions()Resumo
Criação de RDDs de paresTransformações de reduçãoReduções do SparkExemplo de aquecimento simplesResolver com reduceByKey()Resolver com groupByKey()Resolver com aggregateByKey()Resolver com combineByKey()O que é um monoide?Exemplos de monóides e não monóidesO problema do filmeConjunto de dados de entrada a analisarA transformação aggregateByKey()Primeira solução utilizando aggregateByKey()Segunda solução utilizando aggregateByKey()Completa a solução PySpark usando groupByKey()Completa a solução PySpark usando reduceByKey()Completa a solução PySpark usando combineByKey()O passo de baralhar nas reduçõesEmbaralha o passo para groupByKey()Embaralha o passo para reduceByKey()Resumo
Introdução às partiçõesPartições no SparkGerir partiçõesParticionamento predefinidoParticionamento explícitoParticionamento físico para consultas SQLParticionamento físico de dados no SparkPartição como formato de textoPartição como formato ParquetComo consultar dados particionadosExemplo de Amazon AthenaResumo
Introdução aos gráficosA API GraphFramesComo usar GraphFramesFunções e atributos de GraphFramesAlgoritmos GraphFramesEncontrar triângulosProcura de motivosAplicações no mundo realAnálise de genesRecomendações sociaisCírculos do FacebookComponentes ligadosAnalisar os dados de vooResumo

Bases de dados relacionaisLê a partir de uma base de dadosEscrevendo um DataFrame em um banco de dadosLer ficheiros de textoLer e escrever ficheiros CSVLer ficheiros CSVEscrever ficheiros CSVLer e escrever ficheiros JSONLer ficheiros JSONEscrever ficheiros JSONLer e escrever no Amazon S3Lê a partir do Amazon S3Escreve no Amazon S3Leitura e escrita de ficheiros HadoopLer ficheiros de texto do HadoopEscrevendo arquivos de texto do HadoopLer e escrever HDFS SequenceFilesLeitura e escrita de ficheiros ParquetEscrever ficheiros ParquetLer ficheiros ParquetLer e escrever ficheiros AvroLer ficheiros AvroEscrever ficheiros AvroLê e escreve no MS SQL ServerEscreve no MS SQL ServerLê a partir do MS SQL ServerLer ficheiros de imagemCriar um DataFrame a partir de imagensResumo
Classifica o produtoCálculo do produto de classificaçãoFormalização do produto de classificaçãoExemplo de produto de classificaçãoSolução PySparkPageRankComputação iterativa do PageRankPersonaliza o PageRank no PySpark usando RDDsPersonaliza o PageRank no PySpark usando uma matriz de adjacênciaPageRank com GraphFramesResumo
Entrada-Mapa-SaídaSolução RDDSolução DataFrameFuncionalidade Flat MapperEntrada-Filtro-SaídaSolução RDDSolução DataFrameFiltro DataFrameInput-Map-Reduce-OutputSolução RDDSolução DataFrameInput-Multiple-Maps-Reduce-OutputSolução RDDSolução DataFrameInput-Map-Combiner-Reduce-OutputInput-MapPartitions-Reduce-OutputÍndice invertidoDeclaração do problemaEntradaSaídaSolução PySparkResumo
Combinação no mapeadorAlgoritmo básico do MapReduceCombinação no mapeador por registoCombinação no mapeador por partiçãoTop-10Top-N FormalizadoSolução PySparkDescobre os 10 mais baixosMínimoMáximoSolução 1: MapReduce clássicoSolução 2: OrdenaçãoSolução 3: mapPartitions() do SparkO padrão composto e os monóidesMonóidesExemplos monoidais e não monoidaisExemplo de MapReduce não monoideExemplo de MapReduce MonoidImplementação PySpark da Média MonoidalFunctores e MonóidesConclusão sobre a utilização de monóidesBinningOrdenaçãoResumo
Introdução à operação JoinJunta-te ao MapReduceFase do mapaFase do redutorImplementação em PySparkMap-Side Join usando RDDsMap-Side Join usando DataFramesPasso 1: Cria uma cache para os aeroportosPasso 2: Cria uma cache para as companhias aéreasPasso 3: Cria uma tabela de factosPasso 4: Aplicar a união do lado do mapaUniões eficientes usando filtros BloomIntrodução aos filtros BloomUm exemplo simples de filtro BloomFiltros Bloom em PythonUsando Bloom Filters no PySparkResumo
Introdução à engenharia de caraterísticasAdicionar novas funcionalidadesAplicação de UDFsCriar pipelinesBinarização de dadosImputaçãoTokenizaçãoTokenizerRegexTokenizerTokenização com um pipelineNormalizaçãoNormalizaçãoEscalonamento de uma coluna usando um pipelineUsar o MinMaxScaler em várias colunasNormalização usando o normalizadorIndexação de cadeias de caracteresAplicando StringIndexer a uma única colunaAplicar StringIndexer a várias colunasMontagem do vetorBaldeaçãoBucketizerQuantileDiscretizerTransformação de logaritmosCodificação de um pontoTF-IDFDestacadorSQLTransformerResumo

Content preview from Algoritmos de dados com o Spark

Capítulo 9. Padrões clássicos de design de dados

Este trabalho foi traduzido com recurso a IA. Agradecemos o teu feedback e comentários: translation-feedback@oreilly.com

Este capítulo discute alguns dos padrões de design de dados mais fundamentais e clássicos utilizados na grande maioria das soluções de big data. Apesar de serem padrões de projeto simples, eles são úteis para resolver muitos problemas comuns de dados, e eu usei muitos deles em exemplos neste livro. Neste capítulo, apresentarei as implementações do PySpark dos seguintes padrões de projeto:

Entrada-Mapa-Saída
Entrada-Filtro-Saída
Input-Map-Reduce-Output
Input-Multiple-Maps-Reduce-Output
Input-Map-Combiner-Reduce-Output
Input-MapPartitions-Reduce-Output
Entrada-invertida-índice-padrão-saída

Antes de começarmos, no entanto, gostaria de abordar a questão do que quero dizer com "padrões de design". Em ciência da computação e engenharia de software, dado um problema que ocorre comumente, um padrão de projeto é uma solução reutilizável para esse problema. É um modelo ou melhor prática de como resolver um problema, não um projeto acabado que pode ser transformado diretamente em código. Os padrões apresentados neste capítulo irão equipá-lo para lidar com uma ampla gama de tarefas de análise de dados.

Nota

Os padrões de projeto de dados discutidos neste capítulo são padrões básicos. Podes criar os teus ...

Become an O’Reilly member and get unlimited access to this title plus top books and audiobooks from O’Reilly and nearly 200 top publishers, thousands of courses curated by job role, 150+ live events each month,
and much more.

Start your free trial

Escala o aprendizado de máquina com o Spark

Publisher Resources

ISBN: 9798341642799Supplemental Content

Algoritmos de dados com o Spark

by Mahmoud Parsian

Capítulo 9. Padrões clássicos de design de dados

Nota

Become an O’Reilly member and get unlimited access to this title plus top books and audiobooks from O’Reilly and nearly 200 top publishers, thousands of courses curated by job role, 150+ live events each month,
and much more.

You might also like

Escala o aprendizado de máquina com o Spark

Referência de bolso de pipelines de dados

Engenharia de dados financeiros

Fundamentos da visualização de dados

Publisher Resources

Capítulo 9. Padrões clássicos de design de dados

Nota

Become an O’Reilly member and get unlimited access to this title plus top books and audiobooks from O’Reilly and nearly 200 top publishers, thousands of courses curated by job role, 150+ live events each month,and much more.

You might also like

Escala o aprendizado de máquina com o Spark

Referência de bolso de pipelines de dados

Engenharia de dados financeiros

Fundamentos da visualização de dados

Publisher Resources

Become an O’Reilly member and get unlimited access to this title plus top books and audiobooks from O’Reilly and nearly 200 top publishers, thousands of courses curated by job role, 150+ live events each month,
and much more.