Guida allo studio per diventare Associate Certified Data Engineer di Databricks
by Derar Alhussein
Capitolo 8. Implementare la governance dei dati
Questo lavoro è stato tradotto utilizzando l'AI. Siamo lieti di ricevere il tuo feedback e i tuoi commenti: translation-feedback@oreilly.com
Databricks offre un solido modello di governance dei dati progettato per garantire la sicurezza, la qualità e la conformità dei dati durante tutto il loro ciclo di vita. Questo capitolo approfondisce i componenti chiave del modello di governance dei dati di Databricks, con particolare attenzione alla sicurezza dei dati. In particolare esamineremo la gestione dell'accesso ai dati all'interno del metastore tradizionale Hive e la confronteremo con la soluzione di governance di Databricks, Unity Catalog.
Cos'è la governance dei dati?
La governance dei dati è un approccio strategico alla gestione dei dati all'interno di un'organizzazione, che garantisce l'accuratezza, la sicurezza e l'uso responsabile dei dati. Comporta lo sviluppo e l'applicazione di politiche e procedure per controllare i dati nelle varie fasi del loro ciclo di vita, dall'acquisizione e l'archiviazione all'elaborazione e alla condivisione. La governance dei dati comprende diversi componenti chiave, illustrati nella Figura 8-1.
Figura 8-1. Componenti della governance dei dati
- Catalogazione dei dati
- Una governance dei dati efficace richiede una comprensione completa delle risorse di dati di un'organizzazione. Il catalogo dei dati ...