Prefacio

Este trabajo se ha traducido utilizando IA. Agradecemos tus opiniones y comentarios: translation-feedback@oreilly.com

Todos queremos tomar mejores decisiones. Ya sea para servir mejor a nuestros clientes o para mantenerlos a salvo, queremos tomar las decisiones correctas y hacer lo correcto. Para actuar con confianza necesitamos comprender a quién servimos y cuál es su lugar en el mundo. Aunque a menudo disponemos de una avalancha de datos, con demasiada frecuencia no están unidos y no nos cuentan la historia completa del individuo que tenemos ante nosotros.

Resolución de entidades es el arte y la ciencia de conectar los datos, unir los puntos y ver el panorama completo. Este libro es una guía práctica que te ayudará a desvelar ese contexto más amplio y a estar plenamente informado antes de actuar. A menudo se da por sentado, pero en este libro verás que cotejar datos no siempre es sencillo; pero no te preocupes, en el capítulo final estarás bien equipado para superar estos retos y dar vida a tus conjuntos de datos.

Quién debería leer este libro

Si eres gestor de productos, analista de datos o científico de datos en servicios financieros, farmacéuticos u otra gran empresa, este libro es para ti. Si te enfrentas a los retos de los datos aislados que no se unen, tienes visiones contrapuestas de tus clientes en distintas bases de datos, o te encargas de fusionar información de distintas organizaciones o filiales, este libro es para ti.

Los profesionales de la gestión de riesgos encargados de combatir los delitos financieros y de gestionar los riesgos para la reputación y la cadena de suministro también se beneficiarán de la comprensión de los retos de cotejo de datos expuestos en este libro y de las técnicas para superarlos.

Por qué escribí este libro

El reto de la resolución de entidades está a nuestro alrededor; puede que no utilicemos esas palabras, pero cada día este proceso se repite una y otra vez. Unas semanas antes de terminar este libro, mi mujer me pidió que la ayudara a tachar nombres de una lista mientras leía en voz alta una lista de pagadores de un extracto bancario. ¿Habían pagado todas las personas de la lista? ¡Era la resolución de la entidad en acción!

La idea de este libro surgió del deseo de explicar por qué comprobar una coincidencia con una lista de nombres no es tan fácil como parece, y de mostrar algunas de las increíbles herramientas y técnicas que existen ahora para ayudar a resolver este problema a escala.

Espero que, guiándote a través de algunos ejemplos de la vida real, te sientas seguro a la hora de cotejar tus conjuntos de datos para que puedas servir y proteger a tus clientes. Me encantaría que me contaras tu experiencia y tus comentarios sobre el libro. No dudes en plantear cualquier problema con el código que acompaña a este libro en GitHub, o para hablar de la resolución de entidades en general, ponte en contacto conmigo en LinkedIn.

La resolución de entidades es un arte, además de una ciencia. No existe una solución única que funcione para todos los conjuntos de datos. Tendrás que tomar decisiones sobre cómo ajustar tu proceso para conseguir los resultados que deseas. Espero que los lectores de este libro puedan ayudarse mutuamente a encontrar las soluciones óptimas y beneficiarse de las experiencias compartidas.

Navegar por este libro

Este libro de pretende ser una guía práctica, por lo que te animo a que sigas el código a medida que trabajas en cada capítulo. Un principio clave del diseño del libro era ilustrar los retos y las soluciones utilizando datos de código abierto del mundo real. Esto conlleva algunos retos si estás siguiendo el libro, porque tus resultados pueden variar ligeramente a medida que se actualiza el conjunto de datos fuente desde la fecha de publicación. Consulta la página de GitHub para ver las actualizaciones recientes y acceder al código que acompaña al libro.

  • El capítulo 1 ofrece una introducción básica a la resolución de entidades, por qué es necesaria y los pasos lógicos del proceso.
  • El Capítulo 2 ilustra la importancia de normalizar y depurar los datos antes de intentar cotejar los registros.
  • Los capítulos 3 a 6 muestran cómo comparar registros de datos para resolver entidades utilizando comparaciones aproximadas y técnicas de correspondencia probabilística.
  • El Capítulo 7 describe el proceso de agrupación de registros que describen la misma entidad en una agrupación unívocamente identificable.
  • Los capítulos 8 y 9 ilustran cómo ampliar el proceso de resolución de entidades utilizando servicios de computación en nube.
  • El capítulo 10 muestra cómo se pueden enlazar los registros preservando la privacidad entre los propietarios de los datos.
  • Por último, el Capítulo 11 describe algunas consideraciones adicionales a la hora de diseñar un proceso de resolución de entidades y ofrece algunas reflexiones finales sobre la probable evolución futura.

Yo recomendaría que los capítulos 2 a 9 se leyeran consecutivamente, porque construyen de forma incremental soluciones de resolución de entidades utilizando conjuntos de datos de problemas compartidos.

Este libro de asume un conocimiento básico de Python. Hay tutoriales interactivos disponibles en http://learnpython.org para empezar, o recomiendo Python for Data Analysis de Wes McKinney (O'Reilly). Los lectores más avanzados se beneficiarían de conocimientos sobre pandas, Spark y Google Cloud Platform.

Convenciones utilizadas en este libro

En este libro se utilizan las siguientes convenciones tipográficas:

Cursiva

Indica nuevos términos, URL, direcciones de correo electrónico, nombres de archivo y extensiones de archivo.

Constant width

Se utiliza en los listados de programas, así como dentro de los párrafos para referirse a elementos del programa como nombres de variables o funciones, bases de datos, tipos de datos, variables de entorno, sentencias y palabras clave.

Constant width bold

Muestra comandos u otros textos que deben ser tecleados literalmente por el usuario.

Constant width italic

Muestra el texto que debe sustituirse por valores proporcionados por el usuario o por valores determinados por el contexto.

Nota

Este elemento significa una nota general.

Advertencia

Este elemento indica una advertencia o precaución.

Utilizar ejemplos de código

El material complementario (ejemplos de código, ejercicios, etc.) está disponible para su descarga en https://github.com/mshearer0/HandsOnEntityResolution.

Si tienes una pregunta técnica o un problema al utilizar los ejemplos de código, envía un correo electrónico a

Este libro está aquí para ayudarte a hacer tu trabajo. En general, si se ofrece código de ejemplo con este libro, puedes utilizarlo en tus programas y documentación. No es necesario que te pongas en contacto con nosotros para pedirnos permiso, a menos que estés reproduciendo una parte importante del código. Por ejemplo, escribir un programa que utilice varios trozos de código de este libro no requiere permiso. Vender o distribuir ejemplos de los libros de O'Reilly sí requiere permiso. Responder a una pregunta citando este libro y el código de ejemplo no requiere permiso. Incorporar una cantidad significativa de código de ejemplo de este libro en la documentación de tu producto sí requiere permiso.

Agradecemos la atribución, pero en general no la exigimos. Una atribución suele incluir el título, el autor, la editorial y el ISBN. Por ejemplo "Resolución práctica de entidades por Michael Shearer (O'Reilly). Copyright 2024 Michael Shearer, 978-1-098-14848-5".

Si crees que el uso que haces de los ejemplos de código no se ajusta al uso legítimo o al permiso concedido anteriormente, no dudes en ponerte en contacto con nosotros en

Aprendizaje en línea O'Reilly

Nota

Durante más de 40 años, O'Reilly Media ha proporcionado formación, conocimientos y perspectivas sobre tecnología y negocios para ayudar a las empresas a alcanzar el éxito.

Nuestra red única de expertos e innovadores comparten sus conocimientos y experiencia a través de libros, artículos y nuestra plataforma de aprendizaje online. La plataforma de aprendizaje en línea de O'Reilly te ofrece acceso bajo demanda a cursos de formación en directo, rutas de aprendizaje en profundidad, entornos de codificación interactivos y una amplia colección de textos y vídeos de O'Reilly y de más de 200 editoriales. Para más información, visita https://oreilly.com.

Cómo contactar con nosotros

Dirige tus comentarios y preguntas sobre este libro a la editorial:

Tenemos una página web para este libro, donde se enumeran erratas, ejemplos y cualquier información adicional. Puedes acceder a esta página en https://oreil.ly/handsOnEntityResolution.

Para obtener noticias e información sobre nuestros libros y cursos, visita https://oreilly.com.

Encuéntranos en LinkedIn: https://linkedin.com/company/oreilly-media.

Síguenos en Twitter: https://twitter.com/oreillymedia.

Míranos en YouTube: https://youtube.com/oreillymedia.

Agradecimientos

He aprendido que escribir un libro es en gran medida un trabajo de equipo. Estoy agradecida por haber tenido el tiempo y el espacio necesarios para elaborar esta guía y por todos los que dijeron que sí, y dedicaron su tiempo libremente, para hacerla realidad.

En primer lugar, me gustaría dar las gracias a Aurélien Géron, cuyo libro Hands-On Machine Learning with Scikit-Learn, Keras, and TensorFlow me inspiró para considerar la posibilidad de escribir una guía práctica. También me gustaría expresar mi agradecimiento a todos mis antiguos colegas del HSBC, que tan buen uso hicieron de las técnicas de resolución de entidades en la lucha contra la delincuencia financiera.

Me gustaría dar las gracias a todos en O'Reilly, empezando por Michelle Smith, Editora Senior de Adquisiciones de Contenidos, por haber tenido en cuenta la idea inicial y haber elaborado la propuesta. Mi más sincero agradecimiento a Jeff Bleiel por su habilidad editorial y su mano orientadora durante todo el proceso de redacción. Gracias a Aleeya Rahman, Editora de Producción, por su orientación sobre el formato y el arte de LaTeX, y a Kristen Brown, Directora de Servicios de Contenido, por publicar las primeras versiones, que fueron un hito tan alentador. También me gustaría dar las gracias a Karen Montgomery por una ilustración de portada tan apropiada: ¿los pájaros coinciden?

Estoy especialmente agradecido a los revisores Robin Linacre, Olivier Binette y Juan Amador. Gracias a Juan por introducirme en el tema de la resolución de entidades hace varios años e inspirarme para aprender más; a Olivier por su experta orientación sobre el estado de la técnica y su trabajo pionero sobre la evaluación; y a Robin por su empeño en explicar las complejidades de la resolución de entidades de forma práctica y accesible. También me gustaría dar las gracias a los equipos de Splink y OpenMined por los marcos de código abierto en los que se basa gran parte de este libro.

Por último, me gustaría rendir homenaje a mi querida esposa, Kay, por su apoyo y paciencia durante todo el proceso. También me gustaría dar las gracias a mis hijas: Abigail, por retarme a enmarcar el tema de forma accesible, y Emily, por animarme a no rendirme nunca.

Get Resolución práctica de entidades now with the O’Reilly learning platform.

O’Reilly members experience books, live events, courses curated by job role, and more from O’Reilly and nearly 200 top publishers.