book

Aprende a usar o Spark, 2ª edição

Name: Aprende a usar o Spark, 2ª edição
ISBN: 9798341641679

by Jules S. Damji, Brooke Wenig, Tathagata Das, Denny Lee

April 2025

Intermediate to advanced

400 pages

10h 29m

Portuguese (Portugal, Brazil)

O'Reilly Media, Inc.

Read now

Unlock full access

Prefácio
Prefácio
A quem se destina este livroComo o livro está organizadoComo utilizar os exemplos de códigoSoftware e configuração utilizadosConvenções utilizadas neste livroUtilizar exemplos de códigoAprendizagem em linha da O'ReillyComo contactar-nosAgradecimentos
1. Introdução ao Apache Spark: Um mecanismo de análise unificado
A génese do SparkGrandes volumes de dados e computação distribuída na GoogleHadoop na Yahoo!Os primeiros anos do Spark no AMPLabO que é o Apache Spark?VelocidadeFacilidade de utilizaçãoModularidadeExtensibilidadeAnálise unificadaComponentes do Apache Spark como uma pilha unificadaExecução distribuída do Apache SparkA experiência do programadorQuem usa o Spark e para quê?Adoção e expansão na comunidade
2. Faz o download do Apache Spark e começa a trabalhar
Passo 1: Descarrega o Apache SparkDiretórios e ficheiros do SparkPasso 2: Usa o Scala ou o PySpark ShellUtilizar a máquina localEtapa 3: Compreender os conceitos da aplicação SparkAplicação Spark e SparkSessionSpark EmpregosEstágios do SparkTarefas SparkTransformações, acções e avaliação preguiçosaTransformações estreitas e largasA IU do SparkA tua primeira aplicação autónomaContar M&Ms para o Monstro das BolachasConstruir aplicações autónomas em ScalaResumo
3. APIs estruturadas do Apache Spark
Spark: O que há por baixo de um RDD?Estruturação do SparkPrincipais méritos e benefíciosA API DataFrameTipos de dados básicos do SparkTipos de dados estruturados e complexos do SparkEsquemas e criação de DataFramesColunas e expressõesFilasOperações comuns de DataFrameExemplo de DataFrame de ponta a pontaA API do conjunto de dadosObjetos digitados, objetos não digitados e linhas genéricasCriar conjuntos de dadosOperações do conjunto de dadosExemplo de conjunto de dados de ponta a pontaDataFrames versus conjuntos de dadosQuando utilizar RDDsSpark SQL e o motor subjacenteO Optimizador de CatalisadorResumo
4. Spark SQL e DataFrames: Introdução às fontes de dados incorporadas
Usando o Spark SQL em aplicações SparkExemplos de consultas básicasTabelas e vistas SQLManaged Versus UnmanagedTablesCriar bases de dados e tabelas SQLCriar vistasVer os metadadosColoca tabelas SQL em cacheLendo tabelas em DataFramesFontes de dados para DataFrames e tabelas SQLDataFrameReaderDataFrameWriterParquetJSONCSVAvroORCImagensFicheiros bináriosResumo
5. Spark SQL e DataFrames: Interagindo com fontes de dados externas
Spark SQL e Apache HiveFunções definidas pelo utilizadorConsulta com o Spark SQL Shell, Beeline e TableauUsando o Spark SQL ShellTrabalhar com a BeelineTrabalha com o TableauFontes de dados externasJDBC e bases de dados SQLPostgreSQLMySQLAzure Cosmos DBMS SQL ServerOutras fontes externasFunções de ordem superior em DataFrames e Spark SQLOpção 1: Explodir e recolherOpção 2: Função definida pelo utilizadorFunções incorporadas para tipos de dados complexosFunções de ordem superiorDataFrames comuns e operações SQL do SparkSindicatosJunta-te a nósWindowsAlteraçõesResumo
6. Spark SQL e conjuntos de dados
API única para Java e ScalaClasses de caso Scala e JavaBeans para conjuntos de dadosTrabalhar com conjuntos de dadosCriação de dados de amostraTransformação de dados de amostraGestão de memória para conjuntos de dados e DataFramesCodificadores de conjuntos de dadosO formato interno do Spark versus o formato de objeto JavaSerialização e desserialização (SerDe)Custos da utilização de conjuntos de dadosEstratégias para reduzir os custosResumo
7. Otimização e afinação de aplicações Spark
Otimizar e ajustar o Spark para obter eficiênciaVer e definir as configurações do Apache SparkEscala o Spark para grandes cargas de trabalhoArmazenamento em cache e persistência de dadosDataFrame.cache()DataFrame.persist()Quando guardar em cache e persistirQuando não guardar em cache e persistirJunta-te a uma família de SparkDifusão Hash JoinBaralhar Ordenar Fundir JuntarInspeccionando a IU do SparkViaja pelos separadores da IU do SparkResumo
8. Fluxo estruturado
Evolução do motor de processamento de fluxos do Apache SparkO advento do processamento de fluxos de micro-lotesLições aprendidas com o Spark Streaming (DStreams)A filosofia do streaming estruturadoO modelo de programação do streaming estruturadoOs fundamentos de uma consulta de fluxo contínuo estruturadoCinco passos para definir uma consulta de streamingSob o capô de uma consulta de streaming ativaRecuperação de falhas com garantias exactasMonitorização de uma consulta ativaFontes e sumidouros de dados de streamingFicheirosApache KafkaFontes e sumidouros de streaming personalizadosTransformações de dadosExecução incremental e estado de streamingTransformações sem estadoTransformações com estadoAgregações de Streaming com EstadoAgregações não baseadas no tempoAgregações com janelas de tempo de eventoStreaming juntaUniões estáticas de fluxoUniões de fluxo contínuoComputações arbitrárias com estadoModelando operações arbitrárias com estado com mapGroupsWithState()Utilizar tempos limite para gerir grupos inactivosGeneralização com flatMapGroupsWithState()Ajuste de desempenhoResumo

9. Constrói Data Lakes fiáveis com o Apache Spark
A importância de uma solução de armazenamento idealBases de dadosUma breve introdução às bases de dadosLê e escreve em bancos de dados usando o Apache SparkLimitações das bases de dadosLagos de dadosUma breve introdução aos Data LakesLê e escreve em Data Lakes usando o Apache SparkLimitações dos Data LakesArmazéns de lago: O próximo passo na evolução das soluções de armazenamentoApache HudiApache IcebergDelta LakeCria Lakehouses com o Apache Spark e o Delta LakeConfigurando o Apache Spark com o Delta LakeCarregando dados em uma tabela do Delta LakeCarregando fluxos de dados em uma tabela Delta LakeAplicar o esquema na escrita para evitar a corrupção de dadosEvolução de esquemas para acomodar dados em mudançaTransformação de dados existentesAuditoria de alterações de dados com histórico de operaçõesConsulta de instantâneos anteriores de uma tabela com viagem no tempoResumo
10. Aprendizagem automática com MLlib
O que é a aprendizagem automática?Aprendizagem supervisionadaAprendizagem não supervisionadaPorquê o Spark para a aprendizagem automática?Conceber pipelines de aprendizagem automáticaIngestão e exploração de dadosCriar conjuntos de dados de treino e testePreparar caraterísticas com TransformersCompreender a Regressão LinearUtilizar estimadores para criar modelosCriar um pipelineAvaliação de modelosGuardar e carregar modelosAfinação de hiperparâmetrosModelos baseados em árvoresk-Fold Cross-ValidationOtimização de PipelinesResumo
11. Gerir, implementar e dimensionar pipelines de aprendizagem automática com o Apache Spark
Gestão de modelosMLflowOpções de implementação de modelos com MLlibLoteTransmissão em fluxo contínuoPadrões de exportação de modelos para inferência em tempo realAproveita o Spark para modelos não-MLlibUDFs do PandasSpark para afinação distribuída de hiperparâmetrosResumo
12. Epílogo: Apache Spark 3.0
Spark Core e Spark SQLPoda de partição dinâmicaExecução adaptativa de consultasDicas de SQL JoinAPI do plug-in do catálogo e DataSourceV2Agendador sensível ao aceleradorStreaming estruturadoPySpark, UDFs do Pandas e APIs de funções do PandasRedesenhou as UDFs do Pandas com dicas de tipo PythonSuporte a iteradores em UDFs do PandasNovas APIs de funções do PandasFuncionalidade alteradaLínguas suportadas e obsoletasAlterações nas APIs DataFrame e DatasetDataFrame e SQL Explica os ComandosResumo
Índice
Sobre os autores

Overview

Este trabalho foi traduzido com recurso a IA. Agradecemos o teu feedback e comentários: translation-feedback@oreilly.com

Os dados são maiores, chegam mais depressa e apresentam-se numa variedade de formatos... e todos eles têm de ser processados em escala para análise ou aprendizagem automática. Mas como podes processar cargas de trabalho tão variadas de forma eficiente? Entra no Apache Spark.

Atualizada para incluir o Spark 3.0, esta segunda edição mostra aos engenheiros de dados e cientistas de dados por que a estrutura e a unificação no Spark são importantes. Especificamente, este livro explica como realizar análises de dados simples e complexas e empregar algoritmos de aprendizado de máquina. Através de orientações passo-a-passo, trechos de código e notebooks, serás capaz de:

Aprende APIs estruturadas de alto nível em Python, SQL, Scala ou Java
Compreende as operações Spark e o SQL Engine
Inspecciona, afina e depura as operações do Spark com as configurações do Spark e a IU do Spark
Conecta-te a fontes de dados: JSON, Parquet, CSV, Avro, ORC, Hive, S3 ou Kafka
Executa análises em dados em lote e de streaming usando o Structured Streaming
Constrói pipelines de dados fiáveis com Delta Lake e Spark de código aberto
Desenvolve pipelines de aprendizagem automática com MLlib e produz modelos com MLflow

Become an O’Reilly member and get unlimited access to this title plus top books and audiobooks from O’Reilly and nearly 200 top publishers, thousands of courses curated by job role, 150+ live events each month,
and much more.

Read now

Unlock full access

More than 5,000 organizations count on O’Reilly

O’Reilly covers everything we've got, with content to help us build a world-class technology community, upgrade the capabilities and competencies of our teams, and improve overall team performance as well as their engagement.

Julian F.

Head of Cybersecurity

I wanted to learn C and C++, but it didn't click for me until I picked up an O'Reilly book. When I went on the O’Reilly platform, I was astonished to find all the books there, plus live events and sandboxes so you could play around with the technology.

Addison B.

Field Engineer

I’ve been on the O’Reilly platform for more than eight years. I use a couple of learning platforms, but I'm on O'Reilly more than anybody else. When you're there, you start learning. I'm never disappointed.

Amir M.

Data Platform Tech Lead

I'm always learning. So when I got on to O'Reilly, I was like a kid in a candy store. There are playlists. There are answers. There's on-demand training. It's worth its weight in gold, in terms of what it allows me to do.

Mark W.

Embedded Software Engineer

Publisher Resources

ISBN: 9798341641679

Cloud Computing

Data Engineering

Data Science

AI & ML

Programming Languages

Software Architecture

IT/Ops

Security

Design

Business

Soft Skills