Capítulo 5. Bloqueo de registros

Este trabajo se ha traducido utilizando IA. Agradecemos tus opiniones y comentarios: translation-feedback@oreilly.com

En el Capítulo 4, introdujimos técnicas de correspondencia probabilística que nos permitían combinar la equivalencia exacta en atributos individuales en una puntuación compuesta ponderada. Esa puntuación nos permitió calcular la probabilidad global de que dos registros se refieran a la misma entidad.

Hasta ahora sólo hemos intentado resolver conjuntos de datos a pequeña escala en los que podíamos comparar exhaustivamente cada registro con todos los demás para encontrar todas las coincidencias posibles. Sin embargo, en la mayoría de los escenarios de resolución de entidades, trataremos con conjuntos de datos más grandes en los que este enfoque no es práctico ni asequible.

En este capítulo introduciremos el bloqueo de registros para reducir el número de permutaciones que tenemos que considerar, minimizando al mismo tiempo la probabilidad de omitir una coincidencia positiva verdadera. Aprovecharemos el marco Splink, introducido en el último capítulo, para aplicar el modelo Fellegi-Sunter y utilizar el algoritmo de maximización de expectativas para estimar los parámetros del modelo.

Por último, estudiaremos cómo medir nuestro rendimiento de emparejamiento en este conjunto de datos más amplio.

Ejemplo de problema

En capítulos anteriores, consideramos el reto de resolver entidades en dos conjuntos de datos que contienen información sobre ...

Get Resolución práctica de entidades now with the O’Reilly learning platform.

O’Reilly members experience books, live events, courses curated by job role, and more from O’Reilly and nearly 200 top publishers.