book

Governança de dados com o Unity Catalog no Databricks

Name: Governança de dados com o Unity Catalog no Databricks
ISBN: 9798341669062

by Kiran Sreekumar, Karthik Subbarao

September 2025

Intermediate to advanced

384 pages

12h 6m

Portuguese (Portugal, Brazil)

O'Reilly Media, Inc.

Read now

Unlock full access

Prefácio
Prefácio
Por que escrevemos este livro e por que agoraPara quem é este livroComo este livro está organizadoConvenções usadas neste livroAprendizagem on-line da O'ReillyComo entrar em contato conoscoAgradecimentos
Prólogo: Governança por escolha
A jornada para ser uma plataforma de dados multicloudDatabricks Lakehouse e unificação do patrimônio de dadosAproveitando o Unity Catalog
1. A pilha de governança moderna
Apresentando a governança de dadosBenefícios da governança de dados eficazO ciclo de vida dos dadosGovernando os não governadosConformidade com as crescentes regulamentaçõesO amanhecer da LakehouseObtenção de valor dos dadosData Warehouses e Data LakesO paradigma do LakehouseCatálogo Unity da Databricks: Habilitando a governança unificadaApresentando o Unity CatalogArquitetura da plataforma DatabricksCompartilhamento e colaboração de dadosResumo
2. Catálogo Unity sob o capô
A história da governança até agoraHive Metastore como o catálogo padrãoO dilema da governança no Hive MetastoreArquitetura do Unity CatalogGovernança centralizada com o Unity CatalogO modelo de governança do Unity CatalogCredenciais de armazenamento desacopladasLocalização externa para armazenamento de objetos em CloudModos de computação no Unity CatalogRecursos de gerenciamento de dadosCatálogo como espaço de nomesIsolamento de dados no nível do catálogo e do esquemaVinculação do catálogo ao espaço de trabalhoResumo
3. Gerenciamento de identidades
Construções do DatabricksDetalhes específicos da CloudAcesso a Databricks e alémSegurança do DatabricksIdentidades da DatabricksTipos de identidade da DatabricksFunções e responsabilidades predefinidas do administradorInterfaces para acessar a plataformaIU da DatabricksAPI REST da DatabricksProvisionamento de identidadeSincronização de identidades do provedor de identidade com a conta da DatabricksGerenciamento automático de identidade com o Microsoft Entra IDAtribuição de espaço de trabalho da DatabricksProvisionamento e desprovisionamento de acesso de usuárioLogon únicoMétodos de autenticação programáticaAutenticação específica da Cloud: Azure DatabricksAutenticação específica da nuvem: Databricks no GCPFederação de tokens OAuthPráticas recomendadas de identidadeResumo
4. Unity Catalog e computação
Implementação da governança: Um problema em duas partesComputação clássica na DatabricksAcesso padrão ou compartilhadoAcesso dedicado ou de usuário únicoAtribuído a um cluster de grupoGo Serverless com a DatabricksComputação genérica sem servidorArmazém de dados sem servidorServiço de modelo sem servidorAplicativos de banco de dados sem servidorPipelines declarativos de Lakeflow sem servidorResumo
5. Controles de acesso e modelo de permissões
Gerenciamento de acessoControles de acessoControles de acesso ao espaço de trabalhoControles de acesso ao Unity CatalogModelo de permissõesControles de acesso em dados não tabularesConjuntos de dados gerenciados e não gerenciadosControles de acesso avançadosModelos de governança de dadosGovernança de dados centralizadaGovernança de dados distribuídaGovernança de dados federadaArmazenamento e distribuição de dadosLayout e nomenclatura do catálogoCompartilhamento e distribuição de dadosReunindo tudo issoResumo
6. Governando a IA
O que é governança de IA?Ciclo de vida do modelo de IATreinamento de modelosServiço de modelosGovernança de sistemas de IA em DatabricksMLOpsModelos de idiomas grandesGateway de IA do MosaicComponentes de um sistema de IAImplementação de um sistema de IAResumo
7. Observabilidade e capacidade de descoberta
Tabelas do sistema de catálogo UnityArquiteturaObservabilidade da auditoriaObservabilidade da linhagemObservabilidade de custoObservabilidade de computaçãoObservabilidade de JobsObservabilidade do MarketplaceObservabilidade do modelo de serviçoHistórico de consultas e armazenamento ObservabilidadeAssistente de observabilidadeQualidade de dados em DatabricksMonitoramento de LakehouseOs perfisA tabela de linha de baseOs artefatos de monitoramentoMonitoramento da qualidade dos dadosCapacidade de descoberta no Unity CatalogDescrição do ativoMarcaçãoPesquisa com inteligência artificialPrivilégio de pesquisaInsights e popularidadeLinhagemFederação LakehouseCatálogos corporativosCertificação e descontinuidadeResumo

8. Compartilhamento e colaboração de dados
Padrões de acesso a dados da DatabricksCompartilhamento de dados e publicação com o Delta SharingGovernança de dados além dos metastoresPor que o compartilhamento Delta?Compartilhamento D2D sob o capôPropriedade e privilégiosLayout do catálogoDesafiosCompartilhamento interno e externoData Mesh com compartilhamento DeltaCompartilhamento externoDatabricks Marketplace e salas limpasResumo
9. Acesso aberto
Tabela gerenciada versus tabela externaPor que usar tabelas externas?Independência de dadosTabelas gerenciadas para você ganharCatálogo Unity de código abertoAcesso externoCatálogo REST do Unity e do IcebergVenda de credenciaisInteroperabilidade do catálogoResumo
10. Conformidade com os padrões regulatórios
Conformidade com o GDPRA decisão sobre a plataformaSimplificando a jornada de conformidade em DatabricksTratamento de dados e ativos de IA como produtosDetecção e proteção de dados confidenciaisPráticas recomendadas de arquitetura para lidar com dados confidenciaisResumo
11. Acelerar a adoção do Unity Catalog
Ativação automática do Unity CatalogMetastore padrãoCatálogo padrãoEsquema padrãoMigrando do HMS para o Unity CatalogAssistente de atualizaçãoUCXFederação do HMSVariantes de HMS compatíveisComo federar o HMSResumo
12. O futuro do Unity Catalog
Governança avançada de dadosAtendendo aos usuários corporativosMétricas do catálogo UnityInterface amigável para usuários corporativosDobrando a abertura e a interoperabilidadeResumo
Índice
Sobre os autores

Content preview from Governança de dados com o Unity Catalog no Databricks

Capítulo 7. Observabilidade e capacidade de descoberta

Este trabalho foi traduzido com recurso a IA. Agradecemos o teu feedback e comentários: translation-feedback@oreilly.com

As pessoas gastam de 60% a 80% do seu tempo tentando encontrar dados. Isso representa uma enorme perda de produtividade.

Dan Vesset, vice-presidente do grupo, IDC

Antes de ingressar na Databricks, Kiran trabalhou em uma plataforma de dados local que executava o Apache Spark por quase quatro anos. Um dos principais problemas que ele enfrentou ao executar a plataforma, dando suporte a vários usuários que faziam relatórios regulamentares sobre os dados, foi a qualidade dos dados. Ao trabalhar em casos de uso de processamento de dados quase em tempo real, especialmente aqueles que dependem de sistemas de processamento de mensagens, como o Apache Kafka, Azure Event Hubs ou AWS Kinesis, você agravou ainda mais o problema. O risco de perder uma mensagem em trânsito da fila de processamento de mensagens sem que ninguém soubesse de sua ausência era excepcionalmente alto. Quase 95% das vezes, os problemas eram atribuídos à baixa capacidade de descoberta de dados na plataforma de dados. A equipe de suporte desenvolveu, implantou e monitorou ferramentas personalizadas para evitar problemas de perda de dados. A equipe usou várias ferramentas de monitoramento para diferentes aspectos da plataforma, o que complicou o processo geral. A criação e a implementação dessas ferramentas ajudaram a reduzir os problemas com os ...

Become an O’Reilly member and get unlimited access to this title plus top books and audiobooks from O’Reilly and nearly 200 top publishers, thousands of courses curated by job role, 150+ live events each month,
and much more.

Read now

Unlock full access

More than 5,000 organizations count on O’Reilly

O’Reilly covers everything we've got, with content to help us build a world-class technology community, upgrade the capabilities and competencies of our teams, and improve overall team performance as well as their engagement.

Julian F.

Head of Cybersecurity

I wanted to learn C and C++, but it didn't click for me until I picked up an O'Reilly book. When I went on the O’Reilly platform, I was astonished to find all the books there, plus live events and sandboxes so you could play around with the technology.

Addison B.

Field Engineer

I’ve been on the O’Reilly platform for more than eight years. I use a couple of learning platforms, but I'm on O'Reilly more than anybody else. When you're there, you start learning. I'm never disappointed.

Amir M.

Data Platform Tech Lead

I'm always learning. So when I got on to O'Reilly, I was like a kid in a candy store. There are playlists. There are answers. There's on-demand training. It's worth its weight in gold, in terms of what it allows me to do.

Mark W.

Embedded Software Engineer

Publisher Resources

ISBN: 9798341669062

Cloud Computing

Data Engineering

Data Science

AI & ML

Programming Languages

Software Architecture

IT/Ops

Security

Design

Business

Soft Skills

Governança de dados com o Unity Catalog no Databricks

by Kiran Sreekumar, Karthik Subbarao

Capítulo 7. Observabilidade e capacidade de descoberta

Become an O’Reilly member and get unlimited access to this title plus top books and audiobooks from O’Reilly and nearly 200 top publishers, thousands of courses curated by job role, 150+ live events each month,
and much more.