book

Guida allo studio per diventare Associate Certified Data Engineer di Databricks

by Derar Alhussein

March 2025

Intermediate to advanced

408 pages

10h 42m

Italian

O'Reilly Media, Inc.

Read now

Unlock full access

Perché ho scritto questo libroPer chi è questo libroCosa impareraiCosa non aspettarsiRepository GitHub e comunitàConvenzioni utilizzate in questo libroUtilizzo di esempi di codiceFormazione online O'ReillyCome contattarciCome contattare l'autoreRingraziamenti
Presentazione della piattaforma DatabricksCapire la piattaforma DatabricksArchitettura di alto livello della Lakehouse di DatabricksDistribuzione delle risorse DatabricksApache Spark™ su DatabricksDatabricks File System (DBFS)Impostazione di uno spazio di lavoro DatabricksEsplorare l'area di lavoro di DatabricksPanoramica dell'interfaccia dell'area di lavoroNavigare nel browser dell'area di lavoroImportazione di materiale librarioCreazione di clusterCluster multiusoCluster di lavoroPool di DatabricksCreare cluster multiusoGestione del clusterLavorare con i quaderniCreare un nuovo quadernoImpostazione della lingua del notebookEsecuzione del codiceComandi magiciUtilità DatabricksScarica i quaderniVersione del notebookVersioni con GitImpostare l'integrazione con GitCreare cartelle GitGestire i rami di GitImpegnarsi e spingere le modifichePrelevare le modifiche da GitHubConclusioneEsempi di domande d'esameDomande concettualiDomande basate sul codice
Ti presentiamo il Delta LakeCos'è il Delta Lake?Registro delle transazioni di Delta LakeComprendere la funzionalità del Delta LakeVantaggi del Delta LakeLavorare con le tabelle del Delta LakeCreazione di tabelleEsploratore del catalogoInserimento dei datiEsplorare l'elenco delle tabelleAggiornamento delle tabelle del Delta LakeEsplorare la storia del tavoloEsplorare il viaggio nel tempo del DeltaQuery su versioni precedentiTornare alle versioni precedentiOttimizzazione delle tabelle Delta LakeIndicizzazione dell'ordine ZAspirazioneAspirazione in azioneAbbassamento delle tabelle del Delta LakeConclusioneEsempi di domande d'esameDomanda concettualeDomanda basata sul codice
Capire le entità relazionaliDatabase in DatabricksTabelle in DatabricksMettere in pratica le entità relazionaliLavorare nello schema predefinitoLavorare in un nuovo schemaLavorare in uno schema di localizzazione personalizzatoImpostazione delle tabelle DeltaDichiarazioni CTASConfronto tra CREATE TABLE e CTASVincoli della tabellaClonazione delle tabelle di Delta LakeEsplorare le visteVisualizza i tipiConfronto tra i tipi di vistaVisualizzazioni in caloConclusioneEsempi di domande d'esameDomanda concettualeDomanda basata sul codice
Interrogare i file di datiQuery in formato JSONQuery con il formato testoQuery con il formato binaryFileQuery su formati non autodescrittiviRegistrare tabelle da file con CTASRegistrazione di tabelle su fonti di dati straniereScrivere su tabelleSostituzione dei datiAggiunta di datiUnire i datiEsecuzione di trasformazioni ETL avanzateGestire i dati JSON annidatiParsing di JSON in un tipo di strutturaInteragire con i tipi di strutturaAppiattimento dei tipi di strutturaSfruttare la funzione explodeAggregazione di valori uniciPadroneggiare le operazioni di join in Spark SQLEsplorare le operazioni di set in Spark SQLCambiare le prospettive dei datiLavorare con funzioni di ordine superioreFunzione filtroFunzione di trasformazioneSviluppare le UDF di SQLCreare le UDFApplicazione delle UDFCapire le UDFUDF di logica complessaEliminare le UDFConclusioneEsempi di domande d'esameDomanda concettualeDomanda basata sul codice
Streaming dei dati con Apache SparkCos'è un flusso di dati?Streaming strutturato di SparkConfigurazioni delle query in streamingGaranzie di streaming strutturatoOperazioni non supportateImplementare lo streaming strutturatoManipolazioni di dati in streaming in SQLManipolazioni di dati in streaming in PythonIngestione incrementale dei datiIntroduzione all'ingestione dei datiComando COPIA INTOCaricatore automaticoConfronto tra i meccanismi di ingestioneAuto Loader in azioneArchitettura a medaglionePresentazione dell'architettura MedallionCostruire architetture a medaglioneConclusioneEsempi di domande d'esameDomanda concettualeDomanda basata sul codice
Esplorare i tavoli Delta LiveTi presentiamo i tavoli Delta LiveAspettative DLTImplementare le pipeline DLTConfigurare le pipeline DLTCatturare le modifiche dei datiDefinizioneAlimentazione CDCFonti CDCConsegna del mangime CDCCDC in DLTElaborazione di modifiche Acquisizione datiEstensione delle pipeline DLT con nuovi notebookOrchestrare i flussi di lavoroPresentazione delle offerte di lavoro DatabricksCreare lavori DatabricksConfigurazione delle impostazioni del lavoroEsecuzione del lavoroLavori di debugConclusioneEsempi di domande d'esameDomanda concettualeDomanda basata sul codice
Cos'è Databricks SQL?Creare magazzini SQLConfigurazione di un magazzino SQLEndpoint SQLProgettazione di cruscottiCreare un nuovo cruscottoCondividere un dashboardPubblicare un dashboardRipubblicare una nuova versioneGestione delle query SQLScrivere una query SQLSalvataggio di una queryPianificazione di una queryConsultare le query salvateImpostazione degli avvisiCreare un avvisoPianificazione dell'avvisoConclusioneEsempi di domande d'esameDomande concettuali
Cos'è la governance dei dati?Gestione della sicurezza dei dati nel metastore HiveConcessione dei permessiGestione avanzata dei privilegiGestione dei permessi con Databricks SQLGestione dei dati con Unity CatalogCos'è il catalogo Unity?Architettura del catalogo UnityModifiche architettoniche fondamentaliSpazio dei nomi UC a tre livelliGerarchia degli oggetti datiStruttura gerarchica dettagliataGestione dell'identitàModello di sicurezza UCAccedere al metastore di HiveCaratteristiche del catalogo UnityIl catalogo Unity in azioneConclusioneEsempi di domande d'esameDomanda concettualeDomanda basata sul codice
Esplorare il formato dell'esameArgomenti principali trattatiArgomenti fuori campoLinguaggio Code SnippetRegistrazione all'esameQuota di iscrizionePanoramica della piattaforma d'esameProgrammazione dell'esameRisoluzione dei problemi e assistenzaPrepararsi alla valutazioneProve d'esameRisultato dell'esameEsami praticiEsame pratico ufficiale DatabricksEsami pratici interattiviCercare assistenzaPensieri finali

Distribuzione di Databricks su Microsoft AzureDistribuzione di Databricks su Amazon Web ServicesSpazi di lavoro aggiuntivi e gestione degli accountImplementazione di Databricks su Google Cloud Platform
Capitolo 1: Come iniziare con DatabricksCapitolo 2: Gestione dei dati con Delta LakeCapitolo 3: Padroneggiare le entità relazionali in DatabricksCapitolo 4: Trasformare i dati con Apache SparkCapitolo 5: Elaborazione dei dati incrementaliCapitolo 6: Creazione di pipeline di produzioneCapitolo 7: Esplorare Databricks SQLCapitolo 8: Implementare la governance dei dati

Content preview from Guida allo studio per diventare Associate Certified Data Engineer di Databricks

Capitolo 3. Padroneggiare le entità relazionali in Databricks

Questo lavoro è stato tradotto utilizzando l'AI. Siamo lieti di ricevere il tuo feedback e i tuoi commenti: translation-feedback@oreilly.com

Le entità relazionali, in particolare i database , le tabelle e le viste, sono componenti essenziali per organizzare e gestire i dati strutturati in Databricks. Capire come queste entità interagiscono con il metastore e le posizioni di archiviazione è fondamentale per effettuare query e gestire i dati in modo efficiente. In questo capitolo vedremo nel dettaglio come funzionano queste entità all'interno dell'ambiente Databricks e capiremo la loro relazione con lo storage sottostante.

Capire le entità relazionali

Questa sezione fornisce una comprensione dettagliata delle entità relazionali in Databricks, includendo database, tabelle e viste, con un focus sulle loro interazioni con il metastore e i sistemi di archiviazione.

Database in Databricks

In Databricks, un database corrisponde essenzialmente a uno schema in un catalogo dati. Ciò significa che quando crei un database, stai essenzialmente definendo una struttura logica in cui organizzare tabelle, viste e funzioni. Questa raccolta di oggetti del database è chiamata schema. Puoi creare un database utilizzando la sintassi CREATE DATABASE o CREATE SCHEMA, in quanto sono funzionalmente equivalenti.

Ogni spazio di lavoro Databricks include un catalogo dati locale, chiamato hive_metastore, a cui tutti i cluster possono accedere per ...

Become an O’Reilly member and get unlimited access to this title plus top books and audiobooks from O’Reilly and nearly 200 top publishers, thousands of courses curated by job role, 150+ live events each month,
and much more.

Start your free trial

API pratiche per l'IA e la scienza dei dati

Publisher Resources

ISBN: 9798341639430Supplemental Content

Guida allo studio per diventare Associate Certified Data Engineer di Databricks

by Derar Alhussein

Capitolo 3. Padroneggiare le entità relazionali in Databricks

Capire le entità relazionali

Database in Databricks

Become an O’Reilly member and get unlimited access to this title plus top books and audiobooks from O’Reilly and nearly 200 top publishers, thousands of courses curated by job role, 150+ live events each month,
and much more.

You might also like

API pratiche per l'IA e la scienza dei dati

Progettazione di applicazioni per modelli linguistici di grandi dimensioni

Imparare SQL, 3a edizione

SQL per l'analisi dei dati

Publisher Resources

Capitolo 3. Padroneggiare le entità relazionali in Databricks

Capire le entità relazionali

Database in Databricks

Become an O’Reilly member and get unlimited access to this title plus top books and audiobooks from O’Reilly and nearly 200 top publishers, thousands of courses curated by job role, 150+ live events each month,and much more.

You might also like

API pratiche per l'IA e la scienza dei dati

Progettazione di applicazioni per modelli linguistici di grandi dimensioni

Imparare SQL, 3a edizione

SQL per l'analisi dei dati

Publisher Resources

Become an O’Reilly member and get unlimited access to this title plus top books and audiobooks from O’Reilly and nearly 200 top publishers, thousands of courses curated by job role, 150+ live events each month,
and much more.