book

Spark: O Guia Definitivo

Name: Spark: O Guia Definitivo
ISBN: 9798341641693

by Bill Chambers, Matei Zaharia

April 2025

Intermediate to advanced

606 pages

15h 54m

Portuguese (Portugal, Brazil)

O'Reilly Media, Inc.

Read now

Unlock full access

Prefácio
Sobre os autoresA quem se destina este livroConvenções utilizadas neste livroUtilizar exemplos de códigoO'Reilly SafariComo contactar-nosAgradecimentos
I. Visão geral suave de Big Data e Spark
1. O que é o Apache Spark?
Filosofia do Apache SparkContexto: O problema dos grandes dadosHistória do SparkO presente e o futuro do SparkCorre o SparkDescarrega o Spark localmenteLançamento das consolas interactivas da SparkExecutar o Spark na CloudDados utilizados neste livro
2. Uma introdução suave ao Spark
Arquitetura básica do SparkAplicações SparkAPIs de linguagem do SparkAPIs do SparkArranca com a SparkA SparkSessionDataFramesDivisóriasTransformaçõesAvaliação preguiçosaAcçõesSpark UIUm exemplo de ponta a pontaDataFrames e SQLConclusão
3. Faz uma visita ao conjunto de ferramentas do Spark
Executar aplicações de produçãoConjuntos de dados: APIs estruturadas com segurança de tipoStreaming estruturadoAprendizagem automática e análise avançadaAPIs de nível inferiorSparkREcossistema e pacotes do SparkConclusão
II. APIs estruturadas - DataFrames, SQL e conjuntos de dados
4. Visão geral da API estruturada
DataFrames e conjuntos de dadosEsquemasVisão geral dos tipos de Spark estruturadosDataFrames versus conjuntos de dadosColunasFilasTipos de SparkSíntese da execução de API estruturadaPlaneamento lógicoPlaneamento físicoExecuçãoConclusão
5. Operações estruturadas básicas
EsquemasColunas e expressõesColunasExpressõesRegistos e linhasCriar linhasTransformações de DataFrameCriação de DataFramesselect e selectExprConversão para tipos Spark (literais)Adicionar colunasMudar o nome das colunasCaracteres reservados e palavras-chaveSensibilidade de maiúsculas e minúsculasRemover colunasAlterar o tipo de uma coluna (cast)Filtragem de linhasObtendo linhas exclusivasAmostras aleatóriasDivisões aleatóriasConcatenar e anexar linhas (União)Ordenar linhasLimiteRepartir e aglutinarRecolha de linhas para o condutorConclusão
6. Trabalhar com diferentes tipos de dados
Onde procurar APIsConversão para tipos SparkTrabalhar com booleanosTrabalhar com númerosTrabalhar com cordasExpressões regularesTrabalhar com datas e carimbos de data/horaTrabalhar com nulos em dadosCoalesceifnull, nullIf, nvl, e nvl2deixa cairenchersubstituiEncomendaTrabalhar com tipos complexosStructsMatrizesdividirComprimento da matrizarray_containsexplodeMapasTrabalhar com JSONFunções definidas pelo utilizadorConclusão
7. Agregações
Funções de agregaçãocontacountDistinctapprox_count_distinctprimeiro e últimomínimo e máximosomasumDistinctmédiaVariância e desvio padrãoassimetria e curtoseCovariância e correlaçãoAgregação a tipos complexosAgrupamentoAgrupar com expressõesAgrupar com mapasFunções do WindowsAgrupamento de conjuntosRollupsCuboAgrupar metadadosPivotarFunções de agregação definidas pelo utilizadorConclusão

8. Junta-te
Junta expressõesJunta tiposUniões internasJunções externasJunções exteriores à esquerdaUniões externas à direitaSemi-junções esquerdasEsquerda Anti-juntaUniões naturaisJunções cruzadas (cartesianas)Desafios ao usar junçõesUniões em tipos complexosTratamento de nomes de colunas duplicadosComo o Spark realiza uniõesEstratégias de comunicaçãoConclusão
9. Fontes de dados
A estrutura da API de fontes de dadosLê a estrutura da APINoções básicas de leitura de dadosEscreve a estrutura da APINoções básicas de escrita de dadosFicheiros CSVOpções CSVLer ficheiros CSVEscrever ficheiros CSVFicheiros JSONOpções JSONLer ficheiros JSONEscrever ficheiros JSONFicheiros ParquetLer ficheiros ParquetEscrever ficheiros ParquetFicheiros ORCLer ficheiros OrcEscrever ficheiros OrcBases de dados SQLLeitura de bases de dados SQLConsulta pushdownEscreve em bases de dados SQLFicheiros de textoLer ficheiros de textoEscrever ficheiros de textoConceitos avançados de E/STipos de ficheiros divisíveis e compressãoLeitura de dados em paraleloEscrever dados em paraleloEscrever tipos complexosGerir o tamanho do ficheiroConclusão
10. Spark SQL
O que é a SQL?Big Data e SQL: Apache HiveBig Data e SQL: Spark SQLA relação do Spark com a ColmeiaComo executar consultas SQL do SparkCLI do Spark SQLInterface SQL programática do SparkServidor SparkSQL Thrift JDBC/ODBCCatálogoTabelasTabelas geridas pelo SparkCriar tabelasCriar tabelas externasInserção em tabelasDescrição dos metadados da tabelaAtualização dos metadados da tabelaEliminação de tabelasTabelas de cacheVisualizaçõesCriar vistasDiminuir as visualizaçõesBases de dadosCriar bases de dadosDefinir a base de dadosEliminação de bases de dadosSelecionar declaraçõescaso... quando... então DeclaraçõesTópicos avançadosTipos complexosFunçõesSubconsultasCaraterísticas diversasConfiguraçõesDefinir valores de configuração em SQLConclusão
11. Conjuntos de dados
Quando utilizar conjuntos de dadosCriar conjuntos de dadosEm Java: CodificadoresEm Scala: Classes de casosAcçõesTransformaçõesFiltragemMapeamentoJunta-te a nósAgrupamento e agregaçõesConclusão
III. APIs de baixo nível
12. Conjuntos de dados distribuídos resilientes (RDDs)
O que são as APIs de baixo nível?Quando utilizar as APIs de baixo nível?Como utilizar as APIs de baixo nível?Sobre os RDDsTipos de RDDsQuando utilizar RDDs?Conjuntos de dados e RDDs de classes de casosCriar RDDsInteroperando entre DataFrames, Datasets e RDDsDe uma coleção localDe fontes de dadosManipulação de RDDsTransformaçõesdistintofiltrarmapaclassificaDivisões aleatóriasAcçõesreduzcontaprimeiromáximo e mínimotomaGuardar ficheirossaveAsTextFileSequenceFilesFicheiros HadoopArmazenamento em cacheControlo de pontosEncaminha RDDs para comandos de sistemamapPartitionsforeachPartitionglomConclusão
13. RDDs avançados
Noções básicas de valor-chave (RDDs de valor-chave)keyByMapeamento de valoresExtração de chaves e valoresconsultasampleByKeyAgregaçõescountByKeyCompreender as implementações de agregaçãoOutros métodos de agregaçãoCoGruposJunta-te a nósUnião internafechos de correrControlar partiçõescoalescerrepartiçãorepartitionAndSortWithinPartitionsParticionamento personalizadoSerialização personalizadaConclusão
14. Variáveis partilhadas distribuídas
Variáveis de difusãoAcumuladoresExemplo básicoAcumuladores personalizadosConclusão
IV. Aplicações de produção
15. Como o Spark é executado em um cluster
A arquitetura de uma aplicação SparkModos de execuçãoO ciclo de vida de uma aplicação Spark (fora do Spark)Pedido do clienteLançaExecuçãoConclusãoO ciclo de vida de uma aplicação Spark (Inside Spark)A SparkSessionInstruções lógicasUm trabalho SparkFasesTarefasDetalhes da execuçãoPipeliningEmbaralhar a persistênciaConclusão
16. Desenvolver aplicações Spark
Escrever aplicações SparkUma aplicação simples baseada em ScalaEscreve aplicações PythonEscrever aplicações JavaTestar aplicações SparkPrincípios estratégicosConclusões tácticasConexão com estruturas de teste de unidadeLigação a fontes de dadosO processo de desenvolvimentoLançar aplicaçõesExemplos de lançamento de aplicaçõesConfigurar aplicaçõesA SparkConfPropriedades de aplicaçãoPropriedades de tempo de execuçãoPropriedades de execuçãoConfigurar a gestão da memóriaConfigurar o comportamento de baralhamentoVariáveis ambientaisProgramação de trabalhos dentro de uma aplicaçãoConclusão
17. Implementar o Spark
Onde implementar o teu cluster para executar aplicações SparkImplantações de cluster no localSpark na CloudGestores de clustersModo autónomoSpark em YARNConfigurar aplicações Spark no YARNSpark no MesosConfigurações de implantação segurasConfigurações de Network+ do clusterProgramação de aplicaçõesConsiderações diversasConclusão
18. Monitorização e depuração
O panorama da monitorizaçãoO que monitorizarProcessos de driver e executorConsultas, jobs, etapas e tarefasRegistos SparkA IU do SparkAPI REST do SparkServidor de histórico da IU do SparkDepuração e primeiros socorros do SparkOs trabalhos do Spark não iniciamErros antes da execuçãoErros durante a execuçãoTarefas lentas ou retardatáriasAgregações lentasUniões lentasLê e grava lentamenteDriver OutOfMemoryError ou Driver que não respondeExecutor OutOfMemoryError ou Executor não respondeNulos inesperados nos resultadosErros de falta de espaço no discoErros de serializaçãoConclusão
19. Afinação do desempenho
Melhorias indirectas de desempenhoEscolhas de designSerialização de objetos em RDDsConfigurações de clusterProgramaçãoDados em repousoConfigurações de reprodução aleatóriaPressão de memória e recolha de lixoMelhorias diretas de desempenhoParalelismoFiltragem melhoradaRepartição e coalescênciaFunções definidas pelo utilizador (UDFs)Armazenamento temporário de dados (Caching)Junta-te a nósAgregaçõesVariáveis de difusãoConclusão
V. Transmissão em fluxo contínuo
20. Fundamentos do processamento de fluxos
O que é o processamento de fluxo?Casos de uso de processamento de fluxoVantagens do processamento em fluxoDesafios do processamento em fluxo contínuoPontos de conceção do processamento de fluxosAPIs de registo em tempo real versus APIs declarativasTempo do evento versus tempo de processamentoExecução contínua versus execução de micro-lotesAPIs de streaming do SparkA API DStreamStreaming estruturadoConclusão
21. Noções básicas de streaming estruturado
Noções básicas de streaming estruturadoConceitos fundamentaisTransformações e acçõesFontes de entradaLava-loiçasModos de saídaAccionadoresProcessamento em tempo de eventoStreaming estruturado em açãoTransformações em fluxosSelecções e filtragemAgregaçõesJunta-te a nósEntrada e saídaOnde os dados são lidos e escritos (fontes e sumidouros)Lê a partir da fonte KafkaEscrever para o Kafka SinkComo os dados são emitidos (modos de saída)Quando os dados são emitidos (accionadores)API do conjunto de dados em fluxo contínuoConclusão
22. Processamento em tempo de evento e com estado
Hora do eventoProcessamento com estadoProcessamento arbitrário com estadoNoções básicas sobre o tempo do eventoWindows na Hora do EventoJanelas de quedaTratamento de dados tardios com marcas de águaEliminando duplicatas em um fluxoProcessamento arbitrário com estadoIntervalos de tempoModos de saídamapGroupsWithStateflatMapGroupsWithStateConclusão
23. Fluxo estruturado na produção
Tolerância a falhas e pontos de controloAtualizar a tua aplicaçãoAtualização do código da aplicação de streamingAtualizar a tua versão do SparkDimensionamento e redimensionamento da aplicaçãoMétricas e monitorizaçãoConsulta o estadoProgressos recentesSpark UIAlertaMonitorização avançada com o Streaming ListenerConclusão
VI. Análise avançada e aprendizagem automática
24. Visão geral da análise avançada e da aprendizagem automática
Uma breve introdução à análise avançadaAprendizagem supervisionadaRecomendaçãoAprendizagem não supervisionadaAnálise de gráficosO processo de análise avançadaKit de ferramentas de análise avançada do SparkO que é a MLlib?Conceitos de alto nível da MLlibMLlib em açãoEngenharia de recursos com transformadoresEstimadoresConduzir o nosso fluxo de trabalhoFormação e avaliaçãoPersistência e aplicação de modelosPadrões de implantaçãoConclusão
25. Pré-processamento e engenharia de caraterísticas
Formatação de modelos de acordo com o teu caso de utilizaçãoTransformadoresEstimadores para pré-processamentoPropriedades do transformadorTransformadores de alto nívelRFormulaTransformadores SQLVectorAssemblerTrabalho com caraterísticas contínuasBaldeaçãoEscala e normalizaçãoStandardScalerTrabalho com caraterísticas categóricasIndexador de stringsConversão de valores indexados de volta para textoIndexação em vectoresCodificação de um pontoTransformadores de dados de textoTokenização de textoRemover palavras comunsCriar combinações de palavrasConversão de palavras em representações numéricasWord2VecManipulação de caraterísticasPCAInteraçãoExpansão polinomialSeleção de caraterísticasChiSqSelectorTópicos avançadosTransformadores persistentesEscrever um transformador personalizadoConclusão
26. Classificação
Casos de utilizaçãoTipos de classificaçãoClassificação bináriaClassificação multiclasseClassificação com vários rótulosModelos de classificação na MLlibEscalabilidade do modeloRegressão logísticaHiperparâmetros do modeloParâmetros de treinoParâmetros de previsãoExemploResumo do modeloÁrvores de decisãoHiperparâmetros do modeloParâmetros de treinoParâmetros de previsãoFloresta aleatória e árvores com reforço de gradienteHiperparâmetros do modeloParâmetros de treinoParâmetros de previsãoNaive BayesHiperparâmetros do modeloParâmetros de treinoParâmetros de previsãoAvaliadores para classificação e ajuste automático de modelosMétricas de avaliação pormenorizadasClassificador um-vs-restoPerceptron multicamadaConclusão
27. Regressão
Casos de utilizaçãoModelos de regressão em MLlibEscalabilidade do modeloRegressão linearHiperparâmetros do modeloParâmetros de treinoExemploResumo da formaçãoRegressão Linear GeneralizadaHiperparâmetros do modeloParâmetros de treinoParâmetros de previsãoExemploResumo da formaçãoÁrvores de decisãoHiperparâmetros do modeloParâmetros de treinoExemploFlorestas aleatórias e árvores com reforço gradualHiperparâmetros do modeloParâmetros de treinoExemploMétodos avançadosRegressão de Sobrevivência (Tempo de Falha Acelerado)Regressão isotónicaAvaliadores e automatização da afinação de modelosMétricasConclusão
28. Recomendação
Casos de utilizaçãoFiltragem colaborativa com mínimos quadrados alternadosHiperparâmetros do modeloParâmetros de treinoParâmetros de previsãoExemploAvaliadores para recomendaçãoMétricasMétricas de regressãoMétricas de classificaçãoExtração de padrões frequentesConclusão
29. Aprendizagem não supervisionada
Casos de utilizaçãoEscalabilidade do modelok-meansHiperparâmetros do modeloParâmetros de treinoExemploResumo das métricas do k-meansBissecção de k-meansHiperparâmetros do modeloParâmetros de treinoExemploResumo da bissecção do k-meansModelos de mistura gaussianaHiperparâmetros do modeloParâmetros de treinoExemploResumo do modelo de mistura gaussianaAtribuição de Dirichlet LatenteHiperparâmetros do modeloParâmetros de treinoParâmetros de previsãoExemploConclusão
30. Análise de gráficos
Construir um gráficoConsultar o gráficoSubgrafosProcura de motivosAlgoritmos de grafosPageRankMétricas de entrada e saída de grausPesquisa de amplitude em primeiro lugarComponentes ligadosComponentes fortemente ligadosTarefas avançadasConclusão
31. Deep Learning
O que é Deep Learning?Formas de usar o Deep Learning no SparkBibliotecas de Deep LearningMLlib Suporte de rede neuralTensorFramesBigDLTensorFlowOnSparkDeepLearning4JPipelines de Deep LearningUm exemplo simples com pipelines de Deep LearningInstalaçãoImagens e DataFramesAprendizagem por transferênciaAplicação de modelos popularesConclusão
VII. Ecossistema
32. Especificidades da linguagem: Python (PySpark) e R (SparkR e sparklyr)
PySparkDiferenças fundamentais do PySparkIntegração do PandasR no SparkSparkRbrilhaConclusão
33. Ecossistema e comunidade
Pacotes SparkUma lista resumida de pacotes popularesUsar os Spark PackagesPacotes externosComunidadeSpark SummitEncontros locaisConclusão
Índice
Sobre os autores

Overview

Este trabalho foi traduzido com recurso a IA. Agradecemos o teu feedback e comentários: translation-feedback@oreilly.com

Aprende a utilizar, implementar e manter o Apache Spark com este guia abrangente, escrito pelos criadores da estrutura de computação em cluster de código aberto. Com ênfase nas melhorias e nas novas funcionalidades do Spark 2.0, os autores Bill Chambers e Matei Zaharia dividem os tópicos do Spark em secções distintas, cada uma com objetivos únicos.

Explorarás as operações básicas e as funções comuns das APIs estruturadas do Spark, bem como o Structured Streaming, uma nova API de alto nível para a criação de aplicações de streaming de ponta a ponta. Os programadores e administradores de sistemas aprenderão os fundamentos da monitorização, afinação e depuração do Spark, e explorarão técnicas e cenários de aprendizagem automática para utilizar a MLlib, a biblioteca de aprendizagem automática escalável do Spark.

Obtém uma visão geral suave dos grandes dados e do Spark
Aprende sobre DataFrames, SQL e Datasets - as principais APIs do Spark - através de exemplos práticos
Mergulha nas APIs de baixo nível do Spark, RDDs e execução de SQL e DataFrames
Compreende como o Spark é executado num cluster
Depura, monitoriza e afina clusters e aplicações Spark
Aprende o poder do Structured Streaming, o mecanismo de processamento de fluxo do Spark
Aprende como podes aplicar MLlib a uma variedade de problemas, incluindo classificação ou recomendação

Become an O’Reilly member and get unlimited access to this title plus top books and audiobooks from O’Reilly and nearly 200 top publishers, thousands of courses curated by job role, 150+ live events each month,
and much more.

Read now

Unlock full access

More than 5,000 organizations count on O’Reilly

O’Reilly covers everything we've got, with content to help us build a world-class technology community, upgrade the capabilities and competencies of our teams, and improve overall team performance as well as their engagement.

Julian F.

Head of Cybersecurity

I wanted to learn C and C++, but it didn't click for me until I picked up an O'Reilly book. When I went on the O’Reilly platform, I was astonished to find all the books there, plus live events and sandboxes so you could play around with the technology.

Addison B.

Field Engineer

I’ve been on the O’Reilly platform for more than eight years. I use a couple of learning platforms, but I'm on O'Reilly more than anybody else. When you're there, you start learning. I'm never disappointed.

Amir M.

Data Platform Tech Lead

I'm always learning. So when I got on to O'Reilly, I was like a kid in a candy store. There are playlists. There are answers. There's on-demand training. It's worth its weight in gold, in terms of what it allows me to do.

Mark W.

Embedded Software Engineer

Publisher Resources

ISBN: 9798341641693

Cloud Computing

Data Engineering

Data Science

AI & ML

Programming Languages

Software Architecture

IT/Ops

Security

Design

Business

Soft Skills