book

Algoritmos de dados com o Spark

by Mahmoud Parsian

April 2025

Intermediate to advanced

438 pages

10h 4m

Portuguese (Portugal, Brazil)

O'Reilly Media, Inc.

Book available

Read now

Unlock full access

Porque escrevi este livroA quem se destina este livroComo este livro está organizadoConvenções utilizadas neste livroUtilizar exemplos de códigoAprendizagem em linha da O'ReillyComo contactar-nosAgradecimentos
Porquê o Spark para a análise de dadosO ecossistema SparkArquitetura SparkO poder do PySparkArquitetura do PySparkAbstrações de dados do SparkExemplos de RDDOperações RDD do SparkExemplos de DataFrameUsando o PySpark ShellIniciando o PySpark ShellCriar um RDD a partir de uma coleçãoAgregação e fusão de valores de chavesFiltrando os elementos de um RDDAgrupar chaves semelhantesAgregação de valores para chaves semelhantesExemplo de ETL com DataFramesExtraçãoTransformaçãoCarregamentoResumo
Exemplo de contagem de bases de ADNO problema da contagem de bases de ADNFormato FASTADados de amostraSolução 1 para contagem de bases de ADNPasso 1: Cria um RDD[String] a partir da entradaPasso 2: Define uma função de mapeamentoPasso 3: Encontra as frequências das letras do ADNPrós e contras da solução 1Solução 2 para a contagem de bases de ADNPasso 1: Cria um RDD[String] a partir da entradaPasso 2: Define uma função de mapeamentoPasso 3: Descobre as frequências das letras do ADNPrós e contras da solução 2Solução de contagem de bases de ADN 3A transformação mapPartitions()Passo 1: Cria um RDD[String] a partir da entradaPasso 2: Define uma função para lidar com uma partiçãoPasso 3: Aplica a função personalizada a cada partiçãoPrós e contras da solução 3Resumo
Abstrações de dados e mapeadoresO que são transformações?Transformações preguiçosasA transformação map()Mapeador de DataFrameA transformação flatMap()map() Versus flatMap()Aplica flatMap() a um DataFrameA transformação mapValues()A transformação flatMapValues()A transformação mapPartitions()Manipulação de partições vaziasVantagens e desvantagensTransformação de DataFrames e mapPartitions()Resumo
Criação de RDDs de paresTransformações de reduçãoReduções do SparkExemplo de aquecimento simplesResolver com reduceByKey()Resolver com groupByKey()Resolver com aggregateByKey()Resolver com combineByKey()O que é um monoide?Exemplos de monóides e não monóidesO problema do filmeConjunto de dados de entrada a analisarA transformação aggregateByKey()Primeira solução utilizando aggregateByKey()Segunda solução utilizando aggregateByKey()Completa a solução PySpark usando groupByKey()Completa a solução PySpark usando reduceByKey()Completa a solução PySpark usando combineByKey()O passo de baralhar nas reduçõesEmbaralha o passo para groupByKey()Embaralha o passo para reduceByKey()Resumo
Introdução às partiçõesPartições no SparkGerir partiçõesParticionamento predefinidoParticionamento explícitoParticionamento físico para consultas SQLParticionamento físico de dados no SparkPartição como formato de textoPartição como formato ParquetComo consultar dados particionadosExemplo de Amazon AthenaResumo
Introdução aos gráficosA API GraphFramesComo usar GraphFramesFunções e atributos de GraphFramesAlgoritmos GraphFramesEncontrar triângulosProcura de motivosAplicações no mundo realAnálise de genesRecomendações sociaisCírculos do FacebookComponentes ligadosAnalisar os dados de vooResumo

Bases de dados relacionaisLê a partir de uma base de dadosEscrevendo um DataFrame em um banco de dadosLer ficheiros de textoLer e escrever ficheiros CSVLer ficheiros CSVEscrever ficheiros CSVLer e escrever ficheiros JSONLer ficheiros JSONEscrever ficheiros JSONLer e escrever no Amazon S3Lê a partir do Amazon S3Escreve no Amazon S3Leitura e escrita de ficheiros HadoopLer ficheiros de texto do HadoopEscrevendo arquivos de texto do HadoopLer e escrever HDFS SequenceFilesLeitura e escrita de ficheiros ParquetEscrever ficheiros ParquetLer ficheiros ParquetLer e escrever ficheiros AvroLer ficheiros AvroEscrever ficheiros AvroLê e escreve no MS SQL ServerEscreve no MS SQL ServerLê a partir do MS SQL ServerLer ficheiros de imagemCriar um DataFrame a partir de imagensResumo
Classifica o produtoCálculo do produto de classificaçãoFormalização do produto de classificaçãoExemplo de produto de classificaçãoSolução PySparkPageRankComputação iterativa do PageRankPersonaliza o PageRank no PySpark usando RDDsPersonaliza o PageRank no PySpark usando uma matriz de adjacênciaPageRank com GraphFramesResumo
Entrada-Mapa-SaídaSolução RDDSolução DataFrameFuncionalidade Flat MapperEntrada-Filtro-SaídaSolução RDDSolução DataFrameFiltro DataFrameInput-Map-Reduce-OutputSolução RDDSolução DataFrameInput-Multiple-Maps-Reduce-OutputSolução RDDSolução DataFrameInput-Map-Combiner-Reduce-OutputInput-MapPartitions-Reduce-OutputÍndice invertidoDeclaração do problemaEntradaSaídaSolução PySparkResumo
Combinação no mapeadorAlgoritmo básico do MapReduceCombinação no mapeador por registoCombinação no mapeador por partiçãoTop-10Top-N FormalizadoSolução PySparkDescobre os 10 mais baixosMínimoMáximoSolução 1: MapReduce clássicoSolução 2: OrdenaçãoSolução 3: mapPartitions() do SparkO padrão composto e os monóidesMonóidesExemplos monoidais e não monoidaisExemplo de MapReduce não monoideExemplo de MapReduce MonoidImplementação PySpark da Média MonoidalFunctores e MonóidesConclusão sobre a utilização de monóidesBinningOrdenaçãoResumo
Introdução à operação JoinJunta-te ao MapReduceFase do mapaFase do redutorImplementação em PySparkMap-Side Join usando RDDsMap-Side Join usando DataFramesPasso 1: Cria uma cache para os aeroportosPasso 2: Cria uma cache para as companhias aéreasPasso 3: Cria uma tabela de factosPasso 4: Aplicar a união do lado do mapaUniões eficientes usando filtros BloomIntrodução aos filtros BloomUm exemplo simples de filtro BloomFiltros Bloom em PythonUsando Bloom Filters no PySparkResumo
Introdução à engenharia de caraterísticasAdicionar novas funcionalidadesAplicação de UDFsCriar pipelinesBinarização de dadosImputaçãoTokenizaçãoTokenizerRegexTokenizerTokenização com um pipelineNormalizaçãoNormalizaçãoEscalonamento de uma coluna usando um pipelineUsar o MinMaxScaler em várias colunasNormalização usando o normalizadorIndexação de cadeias de caracteresAplicando StringIndexer a uma única colunaAplicar StringIndexer a várias colunasMontagem do vetorBaldeaçãoBucketizerQuantileDiscretizerTransformação de logaritmosCodificação de um pontoTF-IDFDestacadorSQLTransformerResumo

Content preview from Algoritmos de dados com o Spark

Capítulo 5. Particionar dados

Este trabalho foi traduzido com recurso a IA. Agradecemos o teu feedback e comentários: translation-feedback@oreilly.com

O particionamento é definido como "o ato de dividir; separação pela criação de um limite que divide ou mantém separado". O particionamento de dados é utilizado em ferramentas como o Spark, o Amazon Athena e o Google BigQuery para melhorar o desempenho da execução de consultas. Para escalar soluções de Big Data, os dados são divididos em partições que podem ser geridas, acedidas e executadas separadamente e em paralelo.

Conforme discutido nos capítulos anteriores deste livro, o Spark divide os dados em pedaços menores, chamados partições, e depois processa essas partições de forma paralela (muitas partições podem ser processadas simultaneamente) usando executores nos nós de trabalho. Por exemplo, se a tua entrada tiver 100 mil milhões de registos, o Spark pode dividi-la em 10.000 partições, em que cada partição terá cerca de 10 milhões de elementos:

Total de registos: 100,000,000,000
Número de partições: 10,000
Número de elementos por partição: 10,000,000
Paralelismo máximo possível: 10.000

Nota

Por padrão, o Spark implementa o particionamento baseado em hash com um HashPartitioner, que usa a função Object.hashCode() do Java.

O particionamento de dados pode melhorar a capacidade de gerenciamento e escalabilidade, reduzir a contenção e otimizar o desempenho. Suponha que tens dados de temperatura por hora para cidades em ...