book

Guida allo studio per diventare Associate Certified Data Engineer di Databricks

by Derar Alhussein

March 2025

Intermediate to advanced

408 pages

10h 42m

Italian

O'Reilly Media, Inc.

Read now

Unlock full access

Perché ho scritto questo libroPer chi è questo libroCosa impareraiCosa non aspettarsiRepository GitHub e comunitàConvenzioni utilizzate in questo libroUtilizzo di esempi di codiceFormazione online O'ReillyCome contattarciCome contattare l'autoreRingraziamenti
Presentazione della piattaforma DatabricksCapire la piattaforma DatabricksArchitettura di alto livello della Lakehouse di DatabricksDistribuzione delle risorse DatabricksApache Spark™ su DatabricksDatabricks File System (DBFS)Impostazione di uno spazio di lavoro DatabricksEsplorare l'area di lavoro di DatabricksPanoramica dell'interfaccia dell'area di lavoroNavigare nel browser dell'area di lavoroImportazione di materiale librarioCreazione di clusterCluster multiusoCluster di lavoroPool di DatabricksCreare cluster multiusoGestione del clusterLavorare con i quaderniCreare un nuovo quadernoImpostazione della lingua del notebookEsecuzione del codiceComandi magiciUtilità DatabricksScarica i quaderniVersione del notebookVersioni con GitImpostare l'integrazione con GitCreare cartelle GitGestire i rami di GitImpegnarsi e spingere le modifichePrelevare le modifiche da GitHubConclusioneEsempi di domande d'esameDomande concettualiDomande basate sul codice
Ti presentiamo il Delta LakeCos'è il Delta Lake?Registro delle transazioni di Delta LakeComprendere la funzionalità del Delta LakeVantaggi del Delta LakeLavorare con le tabelle del Delta LakeCreazione di tabelleEsploratore del catalogoInserimento dei datiEsplorare l'elenco delle tabelleAggiornamento delle tabelle del Delta LakeEsplorare la storia del tavoloEsplorare il viaggio nel tempo del DeltaQuery su versioni precedentiTornare alle versioni precedentiOttimizzazione delle tabelle Delta LakeIndicizzazione dell'ordine ZAspirazioneAspirazione in azioneAbbassamento delle tabelle del Delta LakeConclusioneEsempi di domande d'esameDomanda concettualeDomanda basata sul codice
Capire le entità relazionaliDatabase in DatabricksTabelle in DatabricksMettere in pratica le entità relazionaliLavorare nello schema predefinitoLavorare in un nuovo schemaLavorare in uno schema di localizzazione personalizzatoImpostazione delle tabelle DeltaDichiarazioni CTASConfronto tra CREATE TABLE e CTASVincoli della tabellaClonazione delle tabelle di Delta LakeEsplorare le visteVisualizza i tipiConfronto tra i tipi di vistaVisualizzazioni in caloConclusioneEsempi di domande d'esameDomanda concettualeDomanda basata sul codice
Interrogare i file di datiQuery in formato JSONQuery con il formato testoQuery con il formato binaryFileQuery su formati non autodescrittiviRegistrare tabelle da file con CTASRegistrazione di tabelle su fonti di dati straniereScrivere su tabelleSostituzione dei datiAggiunta di datiUnire i datiEsecuzione di trasformazioni ETL avanzateGestire i dati JSON annidatiParsing di JSON in un tipo di strutturaInteragire con i tipi di strutturaAppiattimento dei tipi di strutturaSfruttare la funzione explodeAggregazione di valori uniciPadroneggiare le operazioni di join in Spark SQLEsplorare le operazioni di set in Spark SQLCambiare le prospettive dei datiLavorare con funzioni di ordine superioreFunzione filtroFunzione di trasformazioneSviluppare le UDF di SQLCreare le UDFApplicazione delle UDFCapire le UDFUDF di logica complessaEliminare le UDFConclusioneEsempi di domande d'esameDomanda concettualeDomanda basata sul codice
Streaming dei dati con Apache SparkCos'è un flusso di dati?Streaming strutturato di SparkConfigurazioni delle query in streamingGaranzie di streaming strutturatoOperazioni non supportateImplementare lo streaming strutturatoManipolazioni di dati in streaming in SQLManipolazioni di dati in streaming in PythonIngestione incrementale dei datiIntroduzione all'ingestione dei datiComando COPIA INTOCaricatore automaticoConfronto tra i meccanismi di ingestioneAuto Loader in azioneArchitettura a medaglionePresentazione dell'architettura MedallionCostruire architetture a medaglioneConclusioneEsempi di domande d'esameDomanda concettualeDomanda basata sul codice
Esplorare i tavoli Delta LiveTi presentiamo i tavoli Delta LiveAspettative DLTImplementare le pipeline DLTConfigurare le pipeline DLTCatturare le modifiche dei datiDefinizioneAlimentazione CDCFonti CDCConsegna del mangime CDCCDC in DLTElaborazione di modifiche Acquisizione datiEstensione delle pipeline DLT con nuovi notebookOrchestrare i flussi di lavoroPresentazione delle offerte di lavoro DatabricksCreare lavori DatabricksConfigurazione delle impostazioni del lavoroEsecuzione del lavoroLavori di debugConclusioneEsempi di domande d'esameDomanda concettualeDomanda basata sul codice
Cos'è Databricks SQL?Creare magazzini SQLConfigurazione di un magazzino SQLEndpoint SQLProgettazione di cruscottiCreare un nuovo cruscottoCondividere un dashboardPubblicare un dashboardRipubblicare una nuova versioneGestione delle query SQLScrivere una query SQLSalvataggio di una queryPianificazione di una queryConsultare le query salvateImpostazione degli avvisiCreare un avvisoPianificazione dell'avvisoConclusioneEsempi di domande d'esameDomande concettuali
Cos'è la governance dei dati?Gestione della sicurezza dei dati nel metastore HiveConcessione dei permessiGestione avanzata dei privilegiGestione dei permessi con Databricks SQLGestione dei dati con Unity CatalogCos'è il catalogo Unity?Architettura del catalogo UnityModifiche architettoniche fondamentaliSpazio dei nomi UC a tre livelliGerarchia degli oggetti datiStruttura gerarchica dettagliataGestione dell'identitàModello di sicurezza UCAccedere al metastore di HiveCaratteristiche del catalogo UnityIl catalogo Unity in azioneConclusioneEsempi di domande d'esameDomanda concettualeDomanda basata sul codice
Esplorare il formato dell'esameArgomenti principali trattatiArgomenti fuori campoLinguaggio Code SnippetRegistrazione all'esameQuota di iscrizionePanoramica della piattaforma d'esameProgrammazione dell'esameRisoluzione dei problemi e assistenzaPrepararsi alla valutazioneProve d'esameRisultato dell'esameEsami praticiEsame pratico ufficiale DatabricksEsami pratici interattiviCercare assistenzaPensieri finali

Distribuzione di Databricks su Microsoft AzureDistribuzione di Databricks su Amazon Web ServicesSpazi di lavoro aggiuntivi e gestione degli accountImplementazione di Databricks su Google Cloud Platform
Capitolo 1: Come iniziare con DatabricksCapitolo 2: Gestione dei dati con Delta LakeCapitolo 3: Padroneggiare le entità relazionali in DatabricksCapitolo 4: Trasformare i dati con Apache SparkCapitolo 5: Elaborazione dei dati incrementaliCapitolo 6: Creazione di pipeline di produzioneCapitolo 7: Esplorare Databricks SQLCapitolo 8: Implementare la governance dei dati

Content preview from Guida allo studio per diventare Associate Certified Data Engineer di Databricks

Capitolo 5. Elaborazione dei dati incrementali

Questo lavoro è stato tradotto utilizzando l'AI. Siamo lieti di ricevere il tuo feedback e i tuoi commenti: translation-feedback@oreilly.com

Nei capitoli precedenti abbiamo esplorato i fondamenti dell'elaborazione dei dati in gruppi o in batch. Tuttavia, quando i dati vengono generati in modo continuo, gli approcci tradizionali all'elaborazione in batch tendono a diventare insufficienti. In questo capitolo esploreremo i concetti e le tecniche di elaborazione dei dati in streaming, tra cui lo Structured Streaming di Spark e l'ingestione incrementale di dati da file. Inoltre, discuteremo il concetto di architettura a medaglione e come costruirla secondo il modello di elaborazione dei flussi.

Streaming di dati con Apache Spark

Apache Spark offre un solido supporto per l'elaborazione di dati in streaming, consentendoti di eseguire in modo efficiente analisi in tempo reale. Al centro di questo processo c'è il concetto di flusso di dati, che è il fulcro dell'elaborazione. Per lavorare efficacemente con i dati in streaming in Spark, cerchiamo prima di tutto di capire cos'è un flusso di dati e le sue caratteristiche.

Cos'è un flusso di dati?

Un flusso di dati rappresenta un flusso illimitato di dati, spesso provenienti da varie fonti come sensori, file di log o piattaforme di social media. Quando vengono generati nuovi dati, questi vengono aggiunti al flusso, rendendolo un insieme di dati dinamico e in continua evoluzione. Esempi di flussi ...