Guida allo studio per diventare Associate Certified Data Engineer di Databricks
by Derar Alhussein
Capitolo 3. Padroneggiare le entità relazionali in Databricks
Questo lavoro è stato tradotto utilizzando l'AI. Siamo lieti di ricevere il tuo feedback e i tuoi commenti: translation-feedback@oreilly.com
Le entità relazionali, in particolare i database , le tabelle e le viste, sono componenti essenziali per organizzare e gestire i dati strutturati in Databricks. Capire come queste entità interagiscono con il metastore e le posizioni di archiviazione è fondamentale per effettuare query e gestire i dati in modo efficiente. In questo capitolo vedremo nel dettaglio come funzionano queste entità all'interno dell'ambiente Databricks e capiremo la loro relazione con lo storage sottostante.
Capire le entità relazionali
Questa sezione fornisce una comprensione dettagliata delle entità relazionali in Databricks, includendo database, tabelle e viste, con un focus sulle loro interazioni con il metastore e i sistemi di archiviazione.
Database in Databricks
In Databricks, un database corrisponde essenzialmente a uno schema in un catalogo dati. Ciò significa che quando crei un database, stai essenzialmente definendo una struttura logica in cui organizzare tabelle, viste e funzioni. Questa raccolta di oggetti del database è chiamata schema. Puoi creare un database utilizzando la sintassi CREATE DATABASE o CREATE SCHEMA, in quanto sono funzionalmente equivalenti.
Ogni spazio di lavoro Databricks include un catalogo dati locale, chiamato hive_metastore, a cui tutti i cluster possono accedere per ...