book

Algoritmos de dados com o Spark

by Mahmoud Parsian

April 2025

Intermediate to advanced

438 pages

10h 4m

Portuguese (Portugal, Brazil)

O'Reilly Media, Inc.

Book available

Read now

Unlock full access

Porque escrevi este livroA quem se destina este livroComo este livro está organizadoConvenções utilizadas neste livroUtilizar exemplos de códigoAprendizagem em linha da O'ReillyComo contactar-nosAgradecimentos
Porquê o Spark para a análise de dadosO ecossistema SparkArquitetura SparkO poder do PySparkArquitetura do PySparkAbstrações de dados do SparkExemplos de RDDOperações RDD do SparkExemplos de DataFrameUsando o PySpark ShellIniciando o PySpark ShellCriar um RDD a partir de uma coleçãoAgregação e fusão de valores de chavesFiltrando os elementos de um RDDAgrupar chaves semelhantesAgregação de valores para chaves semelhantesExemplo de ETL com DataFramesExtraçãoTransformaçãoCarregamentoResumo
Exemplo de contagem de bases de ADNO problema da contagem de bases de ADNFormato FASTADados de amostraSolução 1 para contagem de bases de ADNPasso 1: Cria um RDD[String] a partir da entradaPasso 2: Define uma função de mapeamentoPasso 3: Encontra as frequências das letras do ADNPrós e contras da solução 1Solução 2 para a contagem de bases de ADNPasso 1: Cria um RDD[String] a partir da entradaPasso 2: Define uma função de mapeamentoPasso 3: Descobre as frequências das letras do ADNPrós e contras da solução 2Solução de contagem de bases de ADN 3A transformação mapPartitions()Passo 1: Cria um RDD[String] a partir da entradaPasso 2: Define uma função para lidar com uma partiçãoPasso 3: Aplica a função personalizada a cada partiçãoPrós e contras da solução 3Resumo
Abstrações de dados e mapeadoresO que são transformações?Transformações preguiçosasA transformação map()Mapeador de DataFrameA transformação flatMap()map() Versus flatMap()Aplica flatMap() a um DataFrameA transformação mapValues()A transformação flatMapValues()A transformação mapPartitions()Manipulação de partições vaziasVantagens e desvantagensTransformação de DataFrames e mapPartitions()Resumo
Criação de RDDs de paresTransformações de reduçãoReduções do SparkExemplo de aquecimento simplesResolver com reduceByKey()Resolver com groupByKey()Resolver com aggregateByKey()Resolver com combineByKey()O que é um monoide?Exemplos de monóides e não monóidesO problema do filmeConjunto de dados de entrada a analisarA transformação aggregateByKey()Primeira solução utilizando aggregateByKey()Segunda solução utilizando aggregateByKey()Completa a solução PySpark usando groupByKey()Completa a solução PySpark usando reduceByKey()Completa a solução PySpark usando combineByKey()O passo de baralhar nas reduçõesEmbaralha o passo para groupByKey()Embaralha o passo para reduceByKey()Resumo
Introdução às partiçõesPartições no SparkGerir partiçõesParticionamento predefinidoParticionamento explícitoParticionamento físico para consultas SQLParticionamento físico de dados no SparkPartição como formato de textoPartição como formato ParquetComo consultar dados particionadosExemplo de Amazon AthenaResumo
Introdução aos gráficosA API GraphFramesComo usar GraphFramesFunções e atributos de GraphFramesAlgoritmos GraphFramesEncontrar triângulosProcura de motivosAplicações no mundo realAnálise de genesRecomendações sociaisCírculos do FacebookComponentes ligadosAnalisar os dados de vooResumo

Bases de dados relacionaisLê a partir de uma base de dadosEscrevendo um DataFrame em um banco de dadosLer ficheiros de textoLer e escrever ficheiros CSVLer ficheiros CSVEscrever ficheiros CSVLer e escrever ficheiros JSONLer ficheiros JSONEscrever ficheiros JSONLer e escrever no Amazon S3Lê a partir do Amazon S3Escreve no Amazon S3Leitura e escrita de ficheiros HadoopLer ficheiros de texto do HadoopEscrevendo arquivos de texto do HadoopLer e escrever HDFS SequenceFilesLeitura e escrita de ficheiros ParquetEscrever ficheiros ParquetLer ficheiros ParquetLer e escrever ficheiros AvroLer ficheiros AvroEscrever ficheiros AvroLê e escreve no MS SQL ServerEscreve no MS SQL ServerLê a partir do MS SQL ServerLer ficheiros de imagemCriar um DataFrame a partir de imagensResumo
Classifica o produtoCálculo do produto de classificaçãoFormalização do produto de classificaçãoExemplo de produto de classificaçãoSolução PySparkPageRankComputação iterativa do PageRankPersonaliza o PageRank no PySpark usando RDDsPersonaliza o PageRank no PySpark usando uma matriz de adjacênciaPageRank com GraphFramesResumo
Entrada-Mapa-SaídaSolução RDDSolução DataFrameFuncionalidade Flat MapperEntrada-Filtro-SaídaSolução RDDSolução DataFrameFiltro DataFrameInput-Map-Reduce-OutputSolução RDDSolução DataFrameInput-Multiple-Maps-Reduce-OutputSolução RDDSolução DataFrameInput-Map-Combiner-Reduce-OutputInput-MapPartitions-Reduce-OutputÍndice invertidoDeclaração do problemaEntradaSaídaSolução PySparkResumo
Combinação no mapeadorAlgoritmo básico do MapReduceCombinação no mapeador por registoCombinação no mapeador por partiçãoTop-10Top-N FormalizadoSolução PySparkDescobre os 10 mais baixosMínimoMáximoSolução 1: MapReduce clássicoSolução 2: OrdenaçãoSolução 3: mapPartitions() do SparkO padrão composto e os monóidesMonóidesExemplos monoidais e não monoidaisExemplo de MapReduce não monoideExemplo de MapReduce MonoidImplementação PySpark da Média MonoidalFunctores e MonóidesConclusão sobre a utilização de monóidesBinningOrdenaçãoResumo
Introdução à operação JoinJunta-te ao MapReduceFase do mapaFase do redutorImplementação em PySparkMap-Side Join usando RDDsMap-Side Join usando DataFramesPasso 1: Cria uma cache para os aeroportosPasso 2: Cria uma cache para as companhias aéreasPasso 3: Cria uma tabela de factosPasso 4: Aplicar a união do lado do mapaUniões eficientes usando filtros BloomIntrodução aos filtros BloomUm exemplo simples de filtro BloomFiltros Bloom em PythonUsando Bloom Filters no PySparkResumo
Introdução à engenharia de caraterísticasAdicionar novas funcionalidadesAplicação de UDFsCriar pipelinesBinarização de dadosImputaçãoTokenizaçãoTokenizerRegexTokenizerTokenização com um pipelineNormalizaçãoNormalizaçãoEscalonamento de uma coluna usando um pipelineUsar o MinMaxScaler em várias colunasNormalização usando o normalizadorIndexação de cadeias de caracteresAplicando StringIndexer a uma única colunaAplicar StringIndexer a várias colunasMontagem do vetorBaldeaçãoBucketizerQuantileDiscretizerTransformação de logaritmosCodificação de um pontoTF-IDFDestacadorSQLTransformerResumo

Content preview from Algoritmos de dados com o Spark

Capítulo 11. Padrões de design de união

Este trabalho foi traduzido com recurso a IA. Agradecemos o teu feedback e comentários: translation-feedback@oreilly.com

Neste capítulo, vamos examinar padrões de design práticos para juntar conjuntos de dados. Como nos capítulos anteriores, vou focar em padrões que são úteis em ambientes do mundo real. O PySpark suporta uma operação básica de junção para RDDs (pyspark.RDD.join()) e DataFrames (pyspark.sql.DataFrame.join()) que será suficiente para a maioria dos casos de uso. No entanto, há circunstâncias em que esta junção pode ser dispendiosa, por isso também te vou mostrar alguns algoritmos de junção especiais que podem ser úteis.

Este capítulo apresenta o conceito básico de união de dois conjuntos de dados e fornece exemplos de alguns padrões de design de união úteis e práticos. Mostrarei como a operação de união é implementada no paradigma MapReduce e como usar as transformações do Spark para realizar uma união. Verás como realizar junções do lado do mapa com RDDs e DataFrames, e como realizar uma junção eficiente utilizando um filtro Bloom.

Introdução à operação Join

No mundo das bases de dados relacionais, juntar duas tabelas (também conhecidas como "relações") com uma chave comum - ou seja, um atributo ou conjunto de atributos numa ou mais colunas que permitem a identificação única de cada registo (tupla ou linha) na tabela - ...

Become an O’Reilly member and get unlimited access to this title plus top books and audiobooks from O’Reilly and nearly 200 top publishers, thousands of courses curated by job role, 150+ live events each month,
and much more.

Start your free trial

Escala o aprendizado de máquina com o Spark

Publisher Resources

ISBN: 9798341642799Supplemental Content

Algoritmos de dados com o Spark

by Mahmoud Parsian

Capítulo 11. Padrões de design de união

Introdução à operação Join

Become an O’Reilly member and get unlimited access to this title plus top books and audiobooks from O’Reilly and nearly 200 top publishers, thousands of courses curated by job role, 150+ live events each month,
and much more.

You might also like

Escala o aprendizado de máquina com o Spark

Referência de bolso de pipelines de dados

Engenharia de dados financeiros

Fundamentos da visualização de dados

Publisher Resources

Capítulo 11. Padrões de design de união

Introdução à operação Join

Become an O’Reilly member and get unlimited access to this title plus top books and audiobooks from O’Reilly and nearly 200 top publishers, thousands of courses curated by job role, 150+ live events each month,and much more.

You might also like

Escala o aprendizado de máquina com o Spark

Referência de bolso de pipelines de dados

Engenharia de dados financeiros

Fundamentos da visualização de dados

Publisher Resources

Become an O’Reilly member and get unlimited access to this title plus top books and audiobooks from O’Reilly and nearly 200 top publishers, thousands of courses curated by job role, 150+ live events each month,
and much more.