Capítulo 1. Introducción a la resolución de entidades

Este trabajo se ha traducido utilizando IA. Agradecemos tus opiniones y comentarios: translation-feedback@oreilly.com

En todo el mundo se recogen y almacenan enormes cantidades de datos, y cada día se añaden más datos. Estos datos registran el mundo en que vivimos y los atributos y características cambiantes de las personas, lugares y cosas que nos rodean.

Dentro de este ecosistema global de procesamiento de datos, las organizaciones recopilan de forma independiente conjuntos superpuestos de información sobre la misma entidad del mundo real. Y cada organización tiene su propio enfoque para organizar y catalogar los datos que posee.

Las empresas y las instituciones tratan de obtener información valiosa de estos datos brutos. Se han desarrollado técnicas analíticas avanzadas para discernir patrones en los datos, extraer significados e incluso intentar predecir el futuro. El rendimiento de estos algoritmos depende de la calidad y riqueza de los datos que se les introducen. Combinando datos de más de una organización, a menudo se puede crear un conjunto de datos más rico y completo, del que se pueden extraer conclusiones más valiosas.

Este libro te guiará sobre cómo unir estos conjuntos de datos heterogéneos para crear conjuntos de datos más ricos sobre el mundo en que vivimos. Este proceso de unión de conjuntos de datos se conoce con diversos nombres, como concordancia de nombres, concordancia difusa, enlace de registros, reconciliación de entidades y resolución de entidades. En este libro utilizaremos el término resolución de entidades para describir el proceso general de resolver, es decir, unir, datos que se refieren a entidades del mundo real.

¿Qué es la resolución de entidades?

La resolución de entidades es una técnica analítica clave para identificar los registros de datos que se refieren a la misma entidad del mundo real. Este proceso de cotejo permite eliminar entradas duplicadas dentro de una misma fuente y unir fuentes de datos dispares cuando no se dispone de identificadores únicos comunes.

La resolución de entidades permite a las empresas crear activos de datos ricos y completos, revelar relaciones y construir redes con fines de marketing y gestión de riesgos. A menudo es un requisito previo clave para aprovechar todo el potencial del aprendizaje automático y la IA.

Por ejemplo, los proveedores sanitarios a menudo necesitan unir registros de distintas consultas o archivos históricos guardados en distintas plataformas. En los servicios financieros, las bases de datos de clientes deben conciliarse para ofrecer los productos y servicios más relevantes o permitir la detección del fraude. Para mejorar la resistencia o proporcionar transparencia sobre cuestiones medioambientales y sociales, las empresas necesitan unir los registros de la cadena de suministro con fuentes de inteligencia de riesgos.

¿Por qué es necesaria la resolución de entidades?

En la vida cotidiana como individuos, se nos asignan muchos números: según mi proveedor de asistencia sanitaria, me identifica un número, otro mi empleador, otro mi gobierno nacional, y así sucesivamente. Cuando me doy de alta en servicios, a menudo me asigna un número (o más de uno a veces) mi banco, el comercio elegido o el proveedor online. ¿Por qué todos estos números? En una época más sencilla, cuando los servicios se prestaban en una comunidad local, los clientes se conocían personalmente y las interacciones se realizaban cara a cara, era obvio con quién estabas tratando. Los intercambios eran a menudo transacciones discretas, sin necesidad de hacer referencia a ningún negocio anterior ni de mantener registros asociados a clientes individuales.

A medida que empezaron a prestarse cada vez más servicios a distancia y a ofrecerse sobre una base regional o incluso nacional más amplia, se hizo necesario un medio de identificar quién era quién. Los nombres eran claramente insuficientes para ser únicos, por lo que a menudo se combinaban con la ubicación para crear un identificador compuesto: La Sra. Jones se convertía en la Sra. Jones de Bromley, en lugar de la Sra. Jones de Harrow. Cuando los registros pasaron del papel al formato electrónico, la asignación de un número único legible por máquina inició la era de los identificadores numéricos y alfanuméricos que nos rodea hoy en día.

Dentro de los confines de su propio dominio, estos identificadores suelen funcionar bien. Yo me identifico con mi número único y está claro que soy el mismo individuo que vuelve. Este identificador permite establecer rápidamente un contexto común entre dos partes y reduce la posibilidad de malentendidos. Estos identificadores no suelen tener nada en común, varían en longitud y formato, y se asignan según diferentes esquemas. No existe ningún mecanismo para traducir entre ellos o para identificar que individual y colectivamente se refieren a mí y no a otro individuo.

Sin embargo, cuando los negocios están despersonalizados, y no conozco a la persona con la que trato ni ella me conoce a mí, ¿qué ocurre si me inscribo en el mismo servicio más de una vez? Tal vez haya olvidado identificarme con mi número único o se presente una nueva solicitud en mi nombre. Se creará un segundo número que también me identifique. Esta duplicación hace más difícil que el proveedor de servicios ofrezca un servicio personalizado, ya que ahora debe unir dos registros diferentes para comprender plenamente quién soy y cuáles pueden ser mis necesidades.

En las grandes organizaciones, el problema de cotejar los registros de clientes es aún más difícil. Las distintas funciones o líneas de negocio pueden mantener sus propios registros, adaptados específicamente a su finalidad, pero diseñados independientemente unos de otros. Un problema habitual es cómo construir una visión completa (o de 360 grados) de un cliente. Los clientes pueden haber interactuado con distintas partes de una organización durante muchos años. Pueden haberlo hecho en diferentes contextos: como individuo, como parte de un hogar común, o quizá en calidad oficial asociada a una empresa u otra entidad jurídica. En el curso de estas diferentes interacciones, a la misma persona se le puede haber asignado una multiplicidad de identificadores en varios sistemas.

Esta situación suele surgir debido a fusiones y adquisiciones (a menudo históricas), en las que conjuntos superpuestos de clientes deben amalgamarse y tratarse coherentemente como una única población. ¿Cómo emparejamos a un cliente de un dominio con uno de otro?

Este reto de unir registros también se produce al reunir conjuntos de datos suministrados por distintas organizaciones. Como no suele haber una norma universalmente adoptada o una clave común entre las empresas, sobre todo en lo que respecta a los individuos, la unión de sus datos es un ejercicio comúnmente pasado por alto y no trivial.

Principales retos de la resolución de entidades

Si nuestros identificadores únicos asignados son todos diferentes y no coinciden, ¿cómo podemos identificar que dos registros se refieren a la misma entidad? Nuestro mejor enfoque es comparar los atributos individuales de esas entidades, como su nombre, y si comparten suficientes similitudes, hacer nuestro mejor juicio de que coinciden. Parece bastante sencillo, ¿verdad? Profundicemos en algunas de las razones por las que no es tan sencillo como parece.

Falta de nombres únicos

En primer lugar, está el reto de reconocer la unicidad entre nombres o etiquetas. La asignación repetida del mismo nombre a diferentes entidades del mundo real presenta un desafío evidente a la hora de diferenciar quién es quién. Tal vez hayas buscado en Internet tu propio nombre. Lo más probable es que, a menos que tu nombre sea particularmente poco común, hayas encontrado un montón de dobles con exactamente el mismo nombre que tú.

Convenciones de nomenclatura incoherentes

Los nombres se registran de diversas formas y estructuras de datos. A veces los nombres se describen completos, pero a menudo aparecen abreviaturas o se omiten las partes menos significativas del nombre. Por ejemplo, mi nombre podría expresarse, de forma totalmente correcta, como cualquiera de las variaciones de la Tabla 1-1.

Tabla 1-1. Variaciones de nombre
Nombre
Michael Shearer
Michael William Shearer
Michael William Robert Shearer
Michael W R Shearer
M W R Shearer
M W Shearer

Ninguno de estos nombres coincide exactamente entre sí, pero todos se refieren a la misma persona, a la misma entidad del mundo real. Los títulos, apodos, formas abreviadas o caracteres acentuados frustran el proceso de encontrar una coincidencia exacta. Los apellidos con doble barra o guión añaden más permutaciones.

En un contexto internacional, las prácticas de asignación de nombres varían enormemente en todo el mundo. Los nombres personales pueden estar presentes al principio o al final de un nombre y los apellidos pueden o no estar presentes. Los apellidos también pueden variar según el sexo y el estado civil del individuo. Los nombres pueden escribirse con distintos alfabetos o conjuntos de caracteres, o traducirse de forma diferente según el idioma.1

Inconsistencias en la Captura de Datos

El proceso de captura y registro de nombres o etiquetas suele reflejar las normas de datos del adquirente. En el nivel más básico, algunos procesos de adquisición de datos emplearán sólo caracteres en mayúsculas, otros en minúsculas, mientras que muchos permitirán mayúsculas y minúsculas mixtas con las letras iniciales en mayúsculas.

Un nombre de puede oírse sólo en una conversación, sin oportunidad de aclarar la ortografía correcta, o puede transcribirse incorrectamente con prisas. A menudo, los nombres o las etiquetas se teclean mal durante el reintroducido manual o se omiten accidentalmente. A veces se utilizan diferentes convenciones que pueden interpretarse fácilmente de forma incorrecta si se pierde el contexto original. Por ejemplo, incluso un nombre sencillo puede registrarse como "Nombre, Apellido", o tal vez como "Apellido, Nombre", o incluso transponerse completamente en los campos equivocados.

La captura internacional de datos puede dar lugar a incoherencias en la transliteración entre una escritura y otra, o a errores de transcripción cuando se captura verbalmente.

Ejemplo práctico

Consideremos un sencillo ejemplo ficticio para ilustrar cómo pueden manifestarse estos retos. Para empezar, imagina que la única información que tenemos es el nombre, como se muestra en la Tabla 1-2.

Tabla 1-2. Ejemplo de registros
Nombre
Michael Shearer
Micheal William Shearer

¿Es probable que un "Michael Shearer" se refiera a la misma entidad que un "Micheal William Shearer"? A falta de cualquier otra información, hay bastantes probabilidades de que ambos se refieran a la misma persona. El segundo, con la adición de un segundo nombre, tiene información adicional, pero por lo demás son casi idénticos y una comparación de los dos apellidos produciría una coincidencia exacta. Fíjate en que he deslizado un error ortográfico común en mi nombre de pila. ¿Te has dado cuenta?

¿Y si añadimos otro atributo, puede ayudarnos a mejorar la precisión de las coincidencias? Si no puedes recordar tu número de afiliación, un proveedor de servicios te pedirá a menudo la fecha de nacimiento para ayudar a identificarte (también lo hacen por motivos de seguridad). La fecha de nacimiento es un atributo especialmente útil porque no cambia y tiene un gran número de valores potenciales (lo que se conoce como cardinalidad alta). Además, la estructura compuesta de los valores individuales de día, mes y año puede darnos pistas sobre la probabilidad de una coincidencia cuando no se establece una equivalencia exacta. Por ejemplo, considera la Tabla 1-3.

Tabla 1-3. Ejemplo de registros-2
Nombre Fecha de nacimiento
Michael Shearer 1/4/1970
Micheal William Shearer 14 de enero de 1970

A primera vista, la fecha de nacimiento no es equivalente entre los dos registros, por lo que podríamos tener la tentación de descartar la coincidencia. Si estos dos individuos nacieron con 10 días de diferencia, ¡es poco probable que sean la misma persona! Sin embargo, sólo hay una diferencia de un dígito entre los dos, ya que al primero le falta el dígito 1 en el subcampo del día, ¿podría tratarse de un error tipográfico? Es difícil saberlo. Si los registros procedieran de fuentes distintas, también tendríamos que considerar si el formato de los datos es coherente: ¿tenemos el formato británico de DD/MM/AAAA o el formato estadounidense de MM/DD/AAAA?

¿Y si añadimos el lugar de nacimiento? De nuevo, este atributo no debería cambiar, pero puede expresarse con distintos niveles de granularidad o con distinta puntuación. La Tabla 1-4 muestra los registros enriquecidos.

Tabla 1-4. Ejemplo de registros-3
Nombre Fecha de nacimiento Lugar de nacimiento
Michael Shearer 1/4/1970 Stow-on-the-Wold
Micheal William Shearer 14 de enero de 1970 Stow on the Wold

Aquí no hay coincidencia exacta en el lugar de nacimiento entre ninguno de los dos registros, aunque ambos podrían ser fácticamente correctos.

Por tanto, el lugar de nacimiento, que puede registrarse con distintos niveles de especificidad, no nos ayuda tanto como pensábamos. ¿Y algo más personal, como un número de teléfono? Por supuesto, muchos de nosotros cambiamos de número de teléfono a lo largo de nuestra vida, pero con la posibilidad de conservar un número de teléfono móvil apreciado y bien socializado al cambiar de proveedor, este número es un atributo más pegajoso que podemos utilizar. Sin embargo, incluso aquí tenemos retos. Los individuos pueden poseer más de un número (uno de trabajo y otro personal, por ejemplo), o el identificador puede registrarse en diversos formatos, incluidos espacios o guiones. Puede incluir o excluir un prefijo de marcación internacional.

La Tabla 1-5 muestra nuestros registros completos.

Tabla 1-5. Ejemplo de registros-4
Nombre Fecha de nacimiento Lugar de nacimiento Número de móvil
Michael Shearer 1/4/1970 Stow-on-the-Wold 07700 900999
Micheal William Shearer 14 de enero de 1970 Stow on the Wold 0770-090-0999

Como puedes ver, este reto de resolución se está complicando rápidamente.

Ofuscación deliberada

La gran mayoría de las incoherencias de datos que frustran el proceso de cotejo surgen por procesos de captura de datos desatentos pero bienintencionados. Sin embargo, para algunos usos debemos considerar el escenario en el que los datos han sido ofuscados maliciosamente para disfrazar la verdadera identidad de la entidad y evitar asociaciones que pudieran revelar una intención o asociación delictiva.

Combinar Permutaciones

Si te pidiera que cotejaras tu nombre con una simple tabla de, digamos, 30 nombres, probablemente podrías hacerlo en unos segundos. Una lista más larga podría llevar minutos, pero sigue siendo una tarea práctica. Sin embargo, si te pidiera que compararas una lista de 100 nombres con una segunda lista de 100 nombres, la tarea se vuelve mucho más laboriosa y propensa al error.

No sólo se amplía el número de posibles coincidencias a 10.000 (100 × 100), sino que si quieres hacerlo en una sola pasada por la segunda tabla tienes que retener en tu cabeza los 100 nombres de la primera tabla, ¡nada fácil!

Del mismo modo, si te pidiera que deduplicaras una lista de 100 nombres en una sola lista, tendrías que comparar realmente:

  1. El primer nombre contra los 99 restantes, luego
  2. El segundo nombre contra los 98 restantes y así sucesivamente.

De hecho, tendrías que hacer 4.950 comparaciones. A una por segundo, son unos 80 minutos de trabajo sólo para comparar dos listas cortas. Para conjuntos de datos mucho mayores, el número de combinaciones potenciales se vuelve impracticable, incluso para el hardware de mayor rendimiento.

¿Coincidencia a ciegas?

Hasta ahora hemos supuesto que los conjuntos de datos que pretendemos cotejar son totalmente transparentes para nosotros, es decir, que los valores de los atributos están fácilmente disponibles, en su totalidad, y no han sido oscurecidos ni enmascarados de ninguna manera. En algunos casos, este ideal no es posible debido a restricciones de privacidad o factores geopolíticos que impiden que los datos se muevan a través de las fronteras. ¿Cómo podemos encontrar coincidencias sin poder ver los datos? Esto parece magia, pero como veremos en el Capítulo 10, existen técnicas criptográficas que permiten que las coincidencias sigan teniendo lugar sin necesidad de exponer completamente la lista con la que se va a comparar.

El proceso de resolución de entidades

Para superar los retos mencionados, el proceso básico de resolución de entidades se divide en cuatro pasos secuenciales:

  1. Normalización de datos
  2. Bloqueo de registros
  3. Comparación de atributos
  4. Clasificación de los partidos

Tras la clasificación de coincidencias, pueden ser necesarios pasos adicionales de postprocesamiento:

  • Agrupación
  • Canonicalización

Vamos a describir brevemente cada uno de estos pasos.

Normalización de datos

Antes de poder comparar registros, tenemos que asegurarnos de que tenemos estructuras de datos coherentes para poder comprobar la equivalencia entre atributos. También tenemos que asegurarnos de que el formato de esos atributos es coherente. Este paso del procesamiento suele implicar la división de campos y la eliminación de valores nulos y caracteres extraños. A menudo se adapta al conjunto de datos de origen.

Bloqueo de registros

Para superar el reto de los volúmenes poco prácticos de comparación de registros, se suele utilizar un proceso denominado bloqueo. En lugar de comparar todos los registros con todos los demás, sólo se comparan en su totalidad subconjuntos de pares de registros, preseleccionados en función de la equivalencia lista entre determinados atributos. Este enfoque de filtrado concentra el proceso de resolución en los registros con mayor propensión a coincidir.

Comparación de atributos

A continuación se produce el proceso de comparación de atributos individuales entre los pares de registros seleccionados por el proceso de bloqueo. El grado de equivalencia puede establecerse basándose en una coincidencia exacta entre atributos o en una función de similitud. Este proceso produce un conjunto de medidas de equivalencia entre dos pares de registros.

Clasificación de los partidos

El paso final del proceso básico de resolución de entidades es concluir si la similitud colectiva entre los atributos individuales es suficiente para declarar que dos registros coinciden, es decir, para resolver que se refieren a la misma entidad del mundo real. Este juicio puede hacerse según un conjunto de reglas definidas manualmente o puede basarse en un enfoque probabilístico de aprendizaje automático.

Agrupación

Una vez completada nuestra clasificación de coincidencias, podemos agrupar nuestros registros en clusters conectados a través de sus pares coincidentes. La inclusión de un par de registros en una agrupación puede determinarse mediante un umbral de confianza de coincidencia adicional. Los registros sin pares por encima de este umbral formarán agrupaciones independientes. Si nuestros criterios de emparejamiento permiten diferentes criterios de equivalencia, entonces nuestros clusters pueden ser intransitivos; es decir, el registro A puede estar emparejado con el registro B, y el registro B emparejado con el registro C, pero el registro C puede no estar emparejado con el registro A. Como resultado, los clusters pueden estar muy interconectados o más débilmente acoplados.

Canonicalización

Tras la resolución, puede ser necesario determinar qué valores de atributo deben utilizarse para representar a una entidad. Si se han utilizado técnicas de emparejamiento aproximado para determinar la equivalencia, o si hay un atributo variable adicional presente en la pareja o agrupación pero no se ha utilizado en el proceso de emparejamiento, puede ser necesario decidir qué valor es el más representativo. Los valores de los atributos canónicos resultantes se utilizan entonces para describir la entidad resuelta en los cálculos posteriores.

Ejemplo práctico

Volviendo a nuestro sencillo ejemplo, apliquemos los pasos a nuestros datos. En primer lugar, normalicemos nuestros datos, dividiendo el atributo nombre, normalizando la fecha de nacimiento y eliminando los caracteres sobrantes en los campos lugar de nacimiento y número de móvil. La Tabla 1-6 muestra nuestros registros depurados.

Tabla 1-6. Paso 1: Registros normalizados de datos
Nombre Apellidos Fecha de nacimiento Lugar de nacimiento Número de móvil
Michael Shearer 1/4/1970 Stow on the Wold 07700 900999
Micheal Shearer 1/14/1970 Stow on the Wold 07700 900999

En este sencillo ejemplo, sólo tenemos que considerar un par, por lo que no necesitamos aplicar el bloqueo. Volveremos sobre este tema en el capítulo 5.

A continuación compararemos los atributos individuales para ver si coinciden exactamente. La Tabla 1-7 muestra la comparación entre cada atributo como "Coincide" o "No coincide".

Tabla 1-7. Paso 3: Comparación de atributos
Atributo Registro de valores 1 Registro de valores 2 Comparación
Nombre Michael Micheal No coincide
Apellidos Shearer Shearer Partido
Fecha de nacimiento 1/4/1970 1/14/1970 No coincide
Lugar de nacimiento Stow on the Wold Stow on the Wold Partido
Número de móvil 07700 900999 07700 900999 Partido

Por último, aplicamos el paso 4 para determinar si tenemos una coincidencia global. Una regla sencilla podría ser si la mayoría de los atributos coinciden, entonces concluimos que el registro global es coincidente, como en este caso.

Alternativamente, podríamos considerar que varias combinaciones de atributos coincidentes son suficientes para que declaremos una coincidencia. En nuestro ejemplo, para declarar una coincidencia podríamos buscar

  • Coincidencia de nombre Y (coincidencia de fecha de nacimiento O lugar de nacimiento), o
  • Coincidencia de nombre Y coincidencia de número de móvil

Podemos llevar este enfoque un paso más allá y asignar una ponderación relativa a cada una de nuestras comparaciones de atributos; una coincidencia de número de móvil vale quizás el doble que una coincidencia de fecha de nacimiento, y así sucesivamente. Combinando estas puntuaciones ponderadas se obtiene una puntuación de coincidencia global que puede considerarse con respecto a un umbral de confianza determinado.

En el capítulo 4 veremos con más detalle distintos enfoques para determinar estas ponderaciones relativas, utilizando técnicas estadísticas y de aprendizaje automático.

Como hemos visto, distintos atributos pueden ser más fuertes o más débiles a la hora de ayudarnos a determinar si tenemos una coincidencia. Antes hemos considerado la probabilidad de encontrar una coincidencia para un nombre que es bastante común frente a otro que se encuentra con menos frecuencia. Por ejemplo, en el contexto del Reino Unido, es probable que una coincidencia con un apellido Smith sea menos informativa que una coincidencia con Shearer: hay menos Shearers que Smiths, por lo que la coincidencia es inherentemente menos probable para empezar (una probabilidad previa menor).

Este enfoque probabilístico funciona especialmente bien cuando algunos de los valores de un atributo categórico (uno con un conjunto finito de valores) son significativamente más comunes que otros. Si consideramos un atributo de ciudad como parte de una coincidencia de dirección en un conjunto de datos del Reino Unido, es probable que Londres aparezca con mucha más frecuencia que, por ejemplo, Bath, y por tanto puede ponderarse menos.

Ten en cuenta que no hemos podido determinar qué fecha de nacimiento es definitivamente correcta, por lo que nos queda un reto de canonización.

Medir el rendimiento

Los enfoques estadísticos de pueden ayudarnos a decidir cómo evaluar y combinar todos los indicios que nos da la comparación de atributos individuales, pero ¿cómo decidimos si la combinación es suficientemente buena o no? ¿Cómo fijamos el umbral de confianza para declarar una coincidencia? Esto depende de lo que sea importante para nosotros y de cómo nos propongamos utilizar nuestras coincidencias recién encontradas.

¿Nos importa más estar seguros de que detectamos todas las coincidencias potenciales y no nos importa si en el proceso declaramos unas cuantas coincidencias que resultan ser falsas? Esta medida se conoce como recall. O no queremos perder el tiempo con coincidencias incorrectas, pero no pasa nada si en el camino se nos escapan algunas coincidencias verdaderas. Esto se denomina precisión.

Al comparar dos registros, pueden darse cuatro situaciones distintas. La Tabla 1-8 enumera las distintas combinaciones de decisión de coincidencia y verdad básica.

Tabla 1-8. Clasificaciones de concordancia
Tú decides La verdad sobre el terreno Instancia de
Partido Partido Verdadero positivo (TP)
Partido No coincide Falso positivo (FP)
No coincide Partido Falso negativo (FN)
No coincide No coincide Verdadero negativo (VN)

Si nuestra medida de recuerdo es alta, entonces sólo declaramos relativamente pocos falsos negativos, es decir, cuando declaramos una coincidencia rara vez pasamos por alto a un buen candidato. Si nuestra precisión es alta, entonces cuando declaramos una coincidencia casi siempre acertamos.

En un extremo, imagina que declaramos coincidentes todas las parejas candidatas; tendríamos cero falsos negativos y nuestra medida de recuerdo sería perfecta (1,0); nunca pasaríamos por alto una coincidencia. Por supuesto, nuestra precisión sería muy pobre, ya que declararíamos incorrectamente como coincidencias muchas no coincidencias. Alternativamente, imagina que declaramos una coincidencia en el caso ideal, cuando todos los atributos son exactamente equivalentes; entonces nunca declararemos una coincidencia por error y nuestra precisión será perfecta (1,0), a expensas de nuestro recuerdo, que será muy pobre, ya que se nos pasarán muchas coincidencias buenas.

En el mejor de los casos, por supuesto, nos gustaría tener una alta recuperación y precisión simultáneamente, es decir, que nuestras coincidencias sean correctas y completas, ¡pero esto es difícil de conseguir! El Capítulo 6 describe este proceso con más detalle.

Cómo empezar

Entonces, ¿cómo podemos resolver estos retos?

Esperamos que este capítulo te haya proporcionado una buena comprensión de lo que es la resolución de entidades, por qué es necesaria y los principales pasos del proceso. Los capítulos siguientes te guiarán, de forma práctica, a través de una serie de ejemplos reales basados en datos disponibles públicamente.

Afortunadamente, además de las opciones comerciales, existen varias bibliotecas Python de código abierto que hacen gran parte del trabajo duro por nosotros. Estos marcos proporcionan el andamiaje sobre el que podemos construir un proceso de emparejamiento a medida que se adapte a nuestros datos y contexto.

Antes de empezar, daremos un pequeño rodeo en el próximo capítulo para configurar nuestro entorno analítico y revisar algunas de las bibliotecas fundamentales de Python para la ciencia de datos que utilizaremos, y luego consideraremos el primer paso en nuestro proceso de resolución de entidades: estandarizar nuestros datos listos para el cotejo.

1 Para más detalles sobre las convenciones globales de nomenclatura, consulta esta guía.

Get Resolución práctica de entidades now with the O’Reilly learning platform.

O’Reilly members experience books, live events, courses curated by job role, and more from O’Reilly and nearly 200 top publishers.