Capítulo 2. Normalización de datos

Este trabajo se ha traducido utilizando IA. Agradecemos tus opiniones y comentarios: translation-feedback@oreilly.com

Como expusimos en el Capítulo 1, antes de poder cotejar o deduplicar con éxito las fuentes de datos, tenemos que asegurarnos de que nuestros datos se presentan de forma coherente y de que se elimina o corrige cualquier anomalía. Utilizaremos el término normalización de datos para abarcar tanto la transformación de los conjuntos de datos en formatos coherentes como la limpieza de los datos para eliminar los caracteres adicionales inútiles que, de otro modo, interferirían en el proceso de cotejo.

En este capítulo, nos pondremos manos a la obra y trabajaremos con un ejemplo real de este proceso. Crearemos nuestro entorno de trabajo, adquiriremos los datos que necesitamos, limpiaremos esos datos y, a continuación, realizaremos un sencillo ejercicio de resolución de entidades que nos permitirá realizar algunos análisis sencillos. Concluiremos examinando el rendimiento de nuestro proceso de cotejo de datos y estudiaremos cómo podríamos mejorarlo.

En primer lugar, presentemos nuestro ejemplo y por qué necesitamos la resolución de entidades para resolverlo.

Ejemplo de problema

Vamos a trabajar con un problema de ejemplo para ilustrar algunos de los retos habituales que vemos en la resolución de entidades entre fuentes de datos y por qué la limpieza de datos es un primer paso esencial. Como nos vemos obligados a utilizar fuentes de datos ...

Get Resolución práctica de entidades now with the O’Reilly learning platform.

O’Reilly members experience books, live events, courses curated by job role, and more from O’Reilly and nearly 200 top publishers.