Capítulo 5. Mejorar la calidad de los datos

Este trabajo se ha traducido utilizando IA. Agradecemos tus opiniones y comentarios: translation-feedback@oreilly.com

Cuando la mayoría de la gente oye las palabras calidad de los datos, piensa en datos correctos y objetivos. En el análisis de datos y la gobernanza de datos, la calidad de los datos tiene un conjunto más matizado de calificativos. Ser correcto no es suficiente, si no se dispone de todos los detalles (por ejemplo, los campos de una transacción). La calidad de los datos también se mide en el contexto de un caso de uso, como explicaremos. Empecemos explorando las características de la calidad de los datos.

¿Qué es la calidad de los datos?

En pocas palabras, la calidad de los datos es la clasificación de ciertos datos según su exactitud, integridad (todas las columnas tienen valores) y actualidad. Cuando trabajas con grandes cantidades de datos, éstos suelen adquirirse y procesarse de forma automatizada. Al pensar en la calidad de los datos, es bueno discutir:

Precisión
Si los datos capturados eran realmente correctos. Por ejemplo, un error en la introducción de datos que provoque que se introduzcan varios ceros delante de un punto decimal, es un problema de precisión. Los datos duplicados también son un ejemplo de datos inexactos.
Integridad
Si todos los registros capturados estaban completos, es decir, si no hay columnas a las que les falte información. Si gestionas registros de clientes, por ejemplo, asegúrate de que ...

Get Gobierno de datos: La Guía Definitiva now with the O’Reilly learning platform.

O’Reilly members experience books, live events, courses curated by job role, and more from O’Reilly and nearly 200 top publishers.