book

Algoritmos de dados com o Spark

by Mahmoud Parsian

April 2025

Intermediate to advanced

438 pages

10h 4m

Portuguese (Portugal, Brazil)

O'Reilly Media, Inc.

Book available

Read now

Unlock full access

Porque escrevi este livroA quem se destina este livroComo este livro está organizadoConvenções utilizadas neste livroUtilizar exemplos de códigoAprendizagem em linha da O'ReillyComo contactar-nosAgradecimentos
Porquê o Spark para a análise de dadosO ecossistema SparkArquitetura SparkO poder do PySparkArquitetura do PySparkAbstrações de dados do SparkExemplos de RDDOperações RDD do SparkExemplos de DataFrameUsando o PySpark ShellIniciando o PySpark ShellCriar um RDD a partir de uma coleçãoAgregação e fusão de valores de chavesFiltrando os elementos de um RDDAgrupar chaves semelhantesAgregação de valores para chaves semelhantesExemplo de ETL com DataFramesExtraçãoTransformaçãoCarregamentoResumo
Exemplo de contagem de bases de ADNO problema da contagem de bases de ADNFormato FASTADados de amostraSolução 1 para contagem de bases de ADNPasso 1: Cria um RDD[String] a partir da entradaPasso 2: Define uma função de mapeamentoPasso 3: Encontra as frequências das letras do ADNPrós e contras da solução 1Solução 2 para a contagem de bases de ADNPasso 1: Cria um RDD[String] a partir da entradaPasso 2: Define uma função de mapeamentoPasso 3: Descobre as frequências das letras do ADNPrós e contras da solução 2Solução de contagem de bases de ADN 3A transformação mapPartitions()Passo 1: Cria um RDD[String] a partir da entradaPasso 2: Define uma função para lidar com uma partiçãoPasso 3: Aplica a função personalizada a cada partiçãoPrós e contras da solução 3Resumo
Abstrações de dados e mapeadoresO que são transformações?Transformações preguiçosasA transformação map()Mapeador de DataFrameA transformação flatMap()map() Versus flatMap()Aplica flatMap() a um DataFrameA transformação mapValues()A transformação flatMapValues()A transformação mapPartitions()Manipulação de partições vaziasVantagens e desvantagensTransformação de DataFrames e mapPartitions()Resumo
Criação de RDDs de paresTransformações de reduçãoReduções do SparkExemplo de aquecimento simplesResolver com reduceByKey()Resolver com groupByKey()Resolver com aggregateByKey()Resolver com combineByKey()O que é um monoide?Exemplos de monóides e não monóidesO problema do filmeConjunto de dados de entrada a analisarA transformação aggregateByKey()Primeira solução utilizando aggregateByKey()Segunda solução utilizando aggregateByKey()Completa a solução PySpark usando groupByKey()Completa a solução PySpark usando reduceByKey()Completa a solução PySpark usando combineByKey()O passo de baralhar nas reduçõesEmbaralha o passo para groupByKey()Embaralha o passo para reduceByKey()Resumo
Introdução às partiçõesPartições no SparkGerir partiçõesParticionamento predefinidoParticionamento explícitoParticionamento físico para consultas SQLParticionamento físico de dados no SparkPartição como formato de textoPartição como formato ParquetComo consultar dados particionadosExemplo de Amazon AthenaResumo
Introdução aos gráficosA API GraphFramesComo usar GraphFramesFunções e atributos de GraphFramesAlgoritmos GraphFramesEncontrar triângulosProcura de motivosAplicações no mundo realAnálise de genesRecomendações sociaisCírculos do FacebookComponentes ligadosAnalisar os dados de vooResumo

Bases de dados relacionaisLê a partir de uma base de dadosEscrevendo um DataFrame em um banco de dadosLer ficheiros de textoLer e escrever ficheiros CSVLer ficheiros CSVEscrever ficheiros CSVLer e escrever ficheiros JSONLer ficheiros JSONEscrever ficheiros JSONLer e escrever no Amazon S3Lê a partir do Amazon S3Escreve no Amazon S3Leitura e escrita de ficheiros HadoopLer ficheiros de texto do HadoopEscrevendo arquivos de texto do HadoopLer e escrever HDFS SequenceFilesLeitura e escrita de ficheiros ParquetEscrever ficheiros ParquetLer ficheiros ParquetLer e escrever ficheiros AvroLer ficheiros AvroEscrever ficheiros AvroLê e escreve no MS SQL ServerEscreve no MS SQL ServerLê a partir do MS SQL ServerLer ficheiros de imagemCriar um DataFrame a partir de imagensResumo
Classifica o produtoCálculo do produto de classificaçãoFormalização do produto de classificaçãoExemplo de produto de classificaçãoSolução PySparkPageRankComputação iterativa do PageRankPersonaliza o PageRank no PySpark usando RDDsPersonaliza o PageRank no PySpark usando uma matriz de adjacênciaPageRank com GraphFramesResumo
Entrada-Mapa-SaídaSolução RDDSolução DataFrameFuncionalidade Flat MapperEntrada-Filtro-SaídaSolução RDDSolução DataFrameFiltro DataFrameInput-Map-Reduce-OutputSolução RDDSolução DataFrameInput-Multiple-Maps-Reduce-OutputSolução RDDSolução DataFrameInput-Map-Combiner-Reduce-OutputInput-MapPartitions-Reduce-OutputÍndice invertidoDeclaração do problemaEntradaSaídaSolução PySparkResumo
Combinação no mapeadorAlgoritmo básico do MapReduceCombinação no mapeador por registoCombinação no mapeador por partiçãoTop-10Top-N FormalizadoSolução PySparkDescobre os 10 mais baixosMínimoMáximoSolução 1: MapReduce clássicoSolução 2: OrdenaçãoSolução 3: mapPartitions() do SparkO padrão composto e os monóidesMonóidesExemplos monoidais e não monoidaisExemplo de MapReduce não monoideExemplo de MapReduce MonoidImplementação PySpark da Média MonoidalFunctores e MonóidesConclusão sobre a utilização de monóidesBinningOrdenaçãoResumo
Introdução à operação JoinJunta-te ao MapReduceFase do mapaFase do redutorImplementação em PySparkMap-Side Join usando RDDsMap-Side Join usando DataFramesPasso 1: Cria uma cache para os aeroportosPasso 2: Cria uma cache para as companhias aéreasPasso 3: Cria uma tabela de factosPasso 4: Aplicar a união do lado do mapaUniões eficientes usando filtros BloomIntrodução aos filtros BloomUm exemplo simples de filtro BloomFiltros Bloom em PythonUsando Bloom Filters no PySparkResumo
Introdução à engenharia de caraterísticasAdicionar novas funcionalidadesAplicação de UDFsCriar pipelinesBinarização de dadosImputaçãoTokenizaçãoTokenizerRegexTokenizerTokenização com um pipelineNormalizaçãoNormalizaçãoEscalonamento de uma coluna usando um pipelineUsar o MinMaxScaler em várias colunasNormalização usando o normalizadorIndexação de cadeias de caracteresAplicando StringIndexer a uma única colunaAplicar StringIndexer a várias colunasMontagem do vetorBaldeaçãoBucketizerQuantileDiscretizerTransformação de logaritmosCodificação de um pontoTF-IDFDestacadorSQLTransformerResumo

Content preview from Algoritmos de dados com o Spark

Capítulo 3. Transformações do mapeador

Este trabalho foi traduzido com recurso a IA. Agradecemos o teu feedback e comentários: translation-feedback@oreilly.com

Este capítulo apresentará as transformações mais comuns do mapeador Spark através de exemplos simples de trabalho. Sem uma compreensão clara das transformações, é difícil usá-las de forma adequada e significativa para resolver qualquer problema de dados. Examinaremos as transformações do mapeador no contexto das abstrações de dados RDD. Um mapeador é uma função utilizada para processar todos os elementos de um RDD de origem e gerar um RDD de destino. Por exemplo, um mapeador pode transformar um registo String em tuplas, pares (chave, valor) ou qualquer que seja o resultado desejado. Informalmente, podemos dizer que um mapeador transforma uma fonteRDD[V] num alvo RDD[T], em queV e T são os tipos de dados dos RDDs de origem e de destino, respetivamente. Também podes aplicar transformações de mapeador a DataFrames, aplicando funções de DataFrame (utilizando select() e UDFs) a todas as linhas ou convertendo o teu DataFrame (uma tabela de linhas e colunas) num RDD e, em seguida, utilizando astransformações de mapeador do Spark.

Abstrações de dados e mapeadores

O Spark tem muitas transformações e acções, mas este capítulo é dedicado a explicar as que são mais frequentemente utilizadas na construção de aplicações Spark. As ...

Become an O’Reilly member and get unlimited access to this title plus top books and audiobooks from O’Reilly and nearly 200 top publishers, thousands of courses curated by job role, 150+ live events each month,
and much more.

Start your free trial

Escala o aprendizado de máquina com o Spark

Publisher Resources

ISBN: 9798341642799Supplemental Content

Algoritmos de dados com o Spark

by Mahmoud Parsian

Capítulo 3. Transformações do mapeador

Abstrações de dados e mapeadores

Become an O’Reilly member and get unlimited access to this title plus top books and audiobooks from O’Reilly and nearly 200 top publishers, thousands of courses curated by job role, 150+ live events each month,
and much more.

You might also like

Escala o aprendizado de máquina com o Spark

Referência de bolso de pipelines de dados

Engenharia de dados financeiros

Fundamentos da visualização de dados

Publisher Resources

Capítulo 3. Transformações do mapeador

Abstrações de dados e mapeadores

Become an O’Reilly member and get unlimited access to this title plus top books and audiobooks from O’Reilly and nearly 200 top publishers, thousands of courses curated by job role, 150+ live events each month,and much more.

You might also like

Escala o aprendizado de máquina com o Spark

Referência de bolso de pipelines de dados

Engenharia de dados financeiros

Fundamentos da visualização de dados

Publisher Resources

Become an O’Reilly member and get unlimited access to this title plus top books and audiobooks from O’Reilly and nearly 200 top publishers, thousands of courses curated by job role, 150+ live events each month,
and much more.