Capítulo 4. Aplicar la búsqueda: De los patrones simples a los avanzados

Este trabajo se ha traducido utilizando IA. Agradecemos tus opiniones y comentarios: translation-feedback@oreilly.com

En el capítulo anterior, hablamos de cómo funciona la búsqueda en un catálogo de datos y de cómo la comprensión de la mecánica de la búsqueda puede mejorar tu forma de buscar y, por tanto, aumentar el valor de tu catálogo de datos. Debes recordar que la búsqueda depende de lo bien que organices los datos en tu catálogo de datos. Aunque compongas la frase de consulta perfecta para lo que necesitas, la búsqueda tendrá dificultades para devolver algo si el catálogo de datos tiene metadatos deficientes.

Esto nos lleva a cómo aplicar la búsqueda. Aplicar la búsqueda es un arte distinto de comprender la tecnología en sí. En primer lugar, cuando busques datos, tienes que buscar como un bibliotecario formado para buscar datos, y no como un científico de datos formado para buscar en los datos. Con la mentalidad de un bibliotecario, encontrarás formas creativas de desbloquear las funciones de búsqueda. La búsqueda simple puede utilizarse de diversas formas que aumentan y disminuyen la precisión para buscar más ampliamente o sólo unos pocos resultados. La navegación permite navegar por los datos y comprender su contexto, y una ventaja adicional es que este contexto puede utilizarse para refinar tanto la búsqueda simple como la compleja. Y del mismo modo que la búsqueda simple puede utilizarse de muchas formas distintas, también puede hacerlo la búsqueda compleja.

Lo que aprenderás en este capítulo es sólo el principio. Tendrás que seguir adaptando y perfeccionando la búsqueda aplicada para que se ajuste al lenguaje y la finalidad de tu empresa.

Busca como los bibliotecarios, no como los científicos de datos

Los científicos de datos sobresalen en el análisis de datos: desde conjuntos de datos pequeños a masivos, tienen las herramientas y la mentalidad para buscar en los datos y extraer los hallazgos que necesitan. Ese es su superpoder. Sin embargo, buscar los datos en los que trabajar puede ser un verdadero reto, porque las habilidades que les hacen muy buenos buscando en los datos no se aplican necesariamente a la búsqueda de datos. Como recordarás del Capítulo 3, hay una diferencia significativa entre buscar datos y buscar en los datos.

Los bibliotecarios, en cambio, son muy buenos localizando todo tipo de material bajo el sol: libros, publicaciones periódicas, documentos, ¡todo! Si lo pides, probablemente puedan buscarlo y encontrarlo. Y entre sus superpoderes también está el de buscar datos y saber qué datos necesitas.

A diferencia de la ciencia de datos, que sólo ha cobrado importancia en las últimas décadas, la biblioteconomía y la ciencia de la información (LIS) existen desde hace cientos de años, con otros tantos años perfeccionando el arte de organizar el conocimiento y buscarlo.

Buscar como bibliotecario significa, ante todo, ser bueno evaluando una necesidad de información, porque la necesidad de información determina cómo se buscan los datos. Necesidad de información fue acuñado como término en 1962 por Robert S. Taylor como la forma en que formulamos preguntas a las bases de datos de referencia.1

Tu necesidad de información puede ser grande o pequeña. Pregúntate si estás buscando

  • Todo

  • Algunas cosas buenas

  • Lo único correcto

  • Una cosa que necesitas de nuevo2

Tu necesidad de información determina cómo buscas los datos, ya que las necesidades expresan diferentes tamaños e intenciones.

Todo conlleva una búsqueda compleja, y tu objetivo es una alta recuperación a expensas de la precisión. Pero puedes hacerlo de muchas formas distintas, como verás más adelante en este capítulo.

Algunas cosas buenas es una necesidad de información que no está tan clara. Puedes buscar una recuperación relativamente alta o una precisión relativamente alta, pero no ambas.

Lo único correcto, como alude su nombre, tiene como objetivo encontrar un único activo, o un conjunto de activos definido con precisión. Por tanto, estas búsquedas buscan la precisión.

Por último, una cosa que necesitas de nuevo se basa en activos que ya conoces. También busca la precisión, pero es menos difícil de buscar que la única cosa correcta.

Lo que tienes que tener en cuenta es que buscar datos en repositorios de metadatos como un catálogo de datos puede ser un proceso largo (como ya señaló Taylor en 1962). Así que no te impacientes. Estamos acostumbrados a poder buscarlo todo en Google, pero eso es una simple búsqueda que te juega una mala pasada. La búsqueda de datos no siempre es así; puede llevar muchos pasos antes de que encuentres lo que buscas, y eso está bien. Puede que tengas que hacer ajustes en las búsquedas, tanto de las traducciones de lo que se pretende con una búsqueda a cómo funciona el IRQL específico del sistema y, a partir de ahí, qué términos se incluyen, cuáles de ellos se excluyen o modifican posteriormente, y así sucesivamente, en una larga búsqueda de múltiples pasos para obtener los resultados más relevantes y valiosos. Esto significa que la búsqueda no es sólo una cuestión de traducir una necesidad de información en una búsqueda. El proceso es mucho más sutil, y requiere experiencia.

Buscar datos es como conducir un coche. A veces, das un paseo corto para recoger cosas. De vez en cuando, vas por una carretera larga y cansada en línea recta. De vez en cuando, atraviesas montañas con interminables curvas cerradas, sensación de vértigo, subiendo y bajando, hasta que llegas al destino. O sucede que vas a un lugar sólo para descubrir que necesitas ir a un segundo lugar, y luego a un tercero, antes de poder volver a casa con las cosas que habías salido a buscar. A veces te encuentras en zonas sin normas, a veces el tráfico es abrumador, a veces las carreteras son viejas y están llenas de agujeros. Y a veces, simplemente vas tan rápido como puedes porque es divertido.

Los bibliotecarios combinan todo tipo de métodos y técnicas cuando buscan, y tú también deberías hacerlo. Las siguientes secciones repasarán algunos de los patrones de búsqueda más utilizados. Aunque cada uno de ellos puede funcionar bien de forma aislada, funcionan mejor cuando se combinan.

Patrones de búsqueda

¿Has notado alguna vez que la forma en que buscas depende de lo que buscas? En esta sección, hablaré de los patrones típicos de la búsqueda aplicada. Verás cómo el recuerdo, la precisión, la serendipia, la exhaustividad, la especificidad y otros conceptos entran en juego cuando buscas.

Todos los patrones de búsqueda se enumeran en la Tabla 4-1, con un nombre de búsqueda, un tipo de búsqueda, una breve descripción y el nivel relativo de precisión y recuperación de la búsqueda. Ten en cuenta que la precisión y la recuperación no son aplicables a la navegación.

Consejo

Observa cómo el tipo de búsqueda suaviza la distinción entre búsqueda simple y búsqueda compleja.

Tabla 4-1. Patrones de búsqueda
Buscar nombre Tipo de búsqueda Descripción Precisión Retirada
Búsqueda simple básica Búsqueda simple Algunos golpes precisos y mucho ruido Alta Baja
Búsqueda simple detallada Búsqueda combinatoria simple Búsqueda simple formulada lentamente, porque la búsqueda debe formularse con precisión Alta Baja
Búsqueda sencilla y flexible Búsqueda combinatoria simple Búsqueda truncada que facilita y amplía una búsqueda simple Baja Alta
Búsqueda por rangos Búsqueda combinatoria compleja Búsqueda por rango que permite recuperar activos entre dos valores Alta Baja
Búsqueda en bloque Búsqueda combinatoria compleja Combinación de términos seleccionados para representar un tema Baja Alta
Búsqueda de declaraciones Búsqueda combinatoria compleja Declaración larga de las condiciones precisas que deben cumplir los activos Alta Baja
Glosario de navegación Examinar búsqueda Las búsquedas de palabras concretas dan como resultado listas de palabras en el glosario por las que se puede navegar - -
Navegación por el dominio Examinar búsqueda Dominios como se explica en el Capítulo 3 - -
Navegación por el linaje Examinar búsqueda Linaje, como se explica en el capítulo 3 - -
Navegación gráfica Examinar búsqueda Gráficos como se explica en el Capítulo 3 - -

Hablemos de cada una de ellas.

Búsqueda simple y flexible

También es posible que a veces tengas que realizar búsquedas imprecisas, que te obligarán a examinar detenidamente los resultados de la búsqueda para encontrar los bienes que tenías en mente.

Eso es búsqueda simple flexible, y es un poco más rápida de escribir que la búsqueda simple detallada porque depende menos de la sintaxis exacta; no necesitas conocer los valores exactos de tu sentencia de consulta. La búsqueda simple flexible también es una búsqueda combinatoria simple, pero permite un mayor conjunto de resultados de búsqueda y una mayor recuperación, a expensas de la precisión.

Por ejemplo, un grupo de empleados de Hugin & Munin del departamento de comunicación necesita saber qué tipo de madera utiliza la empresa para incluir algunos detalles en un comunicado de prensa. Se han enterado de que la información está en un archivo CSV. No saben cómo se describe el activo en el catálogo, salvo que contiene datos sobre la madera y que es un archivo CSV. Podrían buscar lo siguiente, que se muestra en la Figura 4-3:

FreeGlossary:*Madera* AND FormatDefault:.csv
Figura 4-3. Búsqueda simple flexible

Esta búsqueda da como resultado todos los activos que representan archivos CSV y que tienen términos de la folcsonomía con la palabra "madera", pero truncados por ambos lados para que los resultados estén abiertos a todas las combinaciones con madera. Así, por ejemplo, se incluyen automáticamente en la búsqueda términos del glosario libre como "suelo de madera", "madera bonita", "maderas", etc.

Este tipo de búsqueda proporcionará una alta recuperación y, por tanto, comprometerá la precisión. Y esa es la cuestión: el usuario final no sabe cómo buscar de forma que ofrezca una precisión completa y, por tanto, debe aspirar a una mayor recuperación para recuperar un grupo de activos en el que se encuentre el activo.

Búsqueda en bloque

Supongamos que un cliente descontento ha decidido presentar una demanda contra Hugin & Munin. La casa que Hugin & Munin le construyó tiene grietas en la fachada, y el cliente argumenta que la madera con la que está construida la casa no es lo bastante sólida.

Búsqueda por bloques es una búsqueda combinatoria compleja muy exhaustiva, en la que buscas un tema completo. Generalmente, en una búsqueda de este tipo intervienen muchas cosas y palabras diferentes, y las ordenas en grupos relacionados como bloques, de ahí el nombre de búsqueda por bloques.

Los abogados de Hugin & Munin empiezan su diligencia debida buscando. Utilizando su formación básica en DCQL, buscan en el catálogo de datos informes y datos de prueba que examinen la resistencia de distintos tipos de madera en las propias construcciones de la empresa. Combinan una gran selección de palabras para maximizar el recuerdo: tienen que obtener todos y cada uno de los activos potencialmente relevantes, con la consecuencia de tener poca precisión, por lo que prevén examinar bastante los resultados de la búsqueda. Realizan la búsqueda como se muestra en la Figura 4-5:

(DomainTerm:((Pino OR Fresno OR Haya OR Roble OR Madera) NOT Tilo) OR FreeTerm:Madera OR GlobalTerm:(Pino Pinus OR Fresno Fraxinus OR Haya Fagus OR Roble Quercus) NOT Tilo Tilia) AND DomainTerm:(Rusticidad OR Solidez OR Resistencia OR Resiliencia)

Los resultados de la búsqueda mostrarán activos que tengan una o más combinaciones de términos para madera y términos para rusticidad.

La búsqueda consiste en términos del glosario de dominios diferentes que describen tipos de madera en inglés estándar. Los activos deben tener una o más de estas palabras, a menos que el activo contenga el siguiente valor, el término del glosario libre madera, o uno o más de los términos del glosario global de la madera, ya que la palabra "madera" no es un término que se encuentre en el glosario global. También puede contener una mezcla de estas palabras. Si se cumplen uno o varios de estos criterios, entonces deben emparejarse con los términos del glosario del dominio para la rusticidad.

Pero no todos los abogados han sido formados en el lenguaje de consulta del catálogo de datos, y se marean un poco intentando controlar la sintaxis al tiempo que se centran en la semántica. Por eso, algunos abogados se limitan a utilizar el constructor de búsquedas. Entran en el constructor de búsquedas desde el campo de búsqueda avanzada de. El constructor de búsqueda permite a los usuarios finales formular su búsqueda con opciones de apuntar y hacer clic, lo que elimina el estrés de controlar la sintaxis y se centra sólo en la semántica. Puedes ver el constructor de búsqueda en la Figura 4-6.

Figura 4-6. Constructor de búsquedas

El constructor de búsquedas de Hugin y Munin crea una visión general visualmente navegable de las búsquedas largas. O significa operador, C significa condición. Todos los paréntesis que aparecen en gris son opcionales; se activan si el usuario final hace clic en ellos. Esta forma de trocear la búsqueda compleja facilita mantener una visión general de lo que hace la búsqueda, de modo que sea fácil vigilar especialmente la semántica.

Nota

Los constructores de búsqueda como el de la Figura 4-6 son componentes estándar en bases de datos de referencia como PubMed. Muchos catálogos de datos, como data.world, también tienen un constructor de búsqueda.

Este tipo de búsqueda también se denomina búsqueda en bloque en LIS. Se practica como método para obtener grandes conjuntos de resultados en búsquedas complejas. Normalmente, este tipo de búsqueda tiene varias fases, en las que se añaden palabras, se eliminan otras, en una serie de ajustes que hacen que el buscador sea capaz de traducir los datos que necesita al lenguaje y la estructura del catálogo de datos, basándose en el análisis de los aciertos obtenidos en los pasos anteriores de la búsqueda.

Además, se trata de un tipo de búsqueda que hace uso de cómo se aplican los glosarios de tu catálogo de datos. Cuanto mayor sea la especificidad, es decir, cuanto más se apliquen realmente los términos de los glosarios en los activos del catálogo de datos (utilizando la exhaustividad de los glosarios), más funcionará tu mecanismo de recuperación.

Consejo

¿Recuerdas La ley de Zipf del Capítulo 3? Si sólo confías en los metadatos rastreados, tus posibilidades de éxito con la búsqueda por bloques son escasas. Necesitas términos de glosario aplicados por humanos, no máquinas, para que tus activos se distingan unos de otros.

La búsqueda en bloque es difícil de construir, pero es muy importante dominarla. En casos de uso legal, de cumplimiento y de búsquedas complejas para la innovación, la búsqueda en bloque es el tipo de búsqueda que hará o deshará un resultado positivo para tu empresa.

Y a veces tienes que hacer una búsqueda compleja que en realidad no es un tema bien definido con términos de glosario asignados, sino una acumulación más desordenada de cosas sobre las que casualmente alguien quiere saber más.

Búsqueda de declaraciones

La mayoría de las búsquedas combinatorias complejas de son búsquedas de enunciados: una mezcla variada de personas, sistemas, dominios y todo lo demás a partir de lo cual se pueden construir búsquedas. Es necesario realizar este tipo de búsquedas en muchas situaciones dispares, que van desde la gestión del catálogo de datos, a la recopilación de datos para un proyecto, pasando por garantizar que los activos asociados a un administrador determinado que cambia de puesto se transfieren a un nuevo administrador (para este último caso de uso, consulta el Capítulo 7 sobre ciclos de vida).

La Figura 4-7 muestra un ejemplo de búsqueda realizada por el equipo de descubrimiento de datos de Hugin & Munin. Quieren averiguar cuántos informes de Tableau no tienen un propietario en Legal, Finanzas o TI.

Esta búsqueda devuelve todos los informes de Tableau de los departamentos creados después del 1 de enero de 2022 que no tienen propietario.

El equipo de descubrimiento de datos utilizará este resultado de búsqueda para ponerse en contacto con los administradores de datos de los activos para pedir que se añada un propietario del activo.

Patrones de navegación

Patrones de navegación son, de hecho, patrones de búsqueda, pero normalmente no requieren que el usuario final formule frases de búsqueda (excepto para las búsquedas en el glosario). En su lugar, la navegación funciona haciendo clic hacia adelante y hacia atrás en listas de términos de glosarios, linajes o gráficos. Piensa en la navegación como una fase entre otros tipos de búsqueda que hace que los usuarios descubran y aprendan el lenguaje y los dominios de su empresa. Esto les permitirá buscar con más destreza si pueden navegar por el panorama de los datos.

Glosario Navegación

A veces, tú puedes simplemente querer explorar un tema para comprender mejor un dominio. Tienes muchas opciones, pero una de ellas es consultar glosarios.

Un ejemplo de Hugin & Munin es el de un nuevo empleado que quiere entender mejor cómo se utiliza la pintura como tratamiento superficial de las casas de madera. El usuario escribe "pintura" en la barra de búsqueda del glosario, como se ve en la Figura 4-8.

Figura 4-8. Glosario de navegación después de la pintura

Aquí, la diferencia entre los distintos glosarios destaca claramente: el glosario global está formado por términos muy controlados que se aplican en toda la empresa, el glosario de dominio se refiere a un único dominio, y el glosario libre sólo añade lo que le apetece a la gente. Si profundizas en los glosarios, verás el nivel de organización que hay en ellos, como se muestra en la Figura 2-11.

Exploración de dominios

Exploración de dominios es cuando recorres las capacidades o procesos de tu empresa. Este tipo de navegación suele estar motivada por la falta de contexto: te permite hacerte una idea de dónde podrían estar ubicados los activos potencialmente relevantes. Por ejemplo, puede que alguien esté trabajando en un proyecto sobre perfiles de clientes y quiera saber si entra en el ámbito de la Gestión de la Información del Cliente o de la Gestión de las Preferencias del Cliente. Esto podría indicarles con quién tienen que hablar en relación con los problemas.

También pueden deberse simplemente a la pura curiosidad, y ese tipo de navegación nunca es una pérdida de tiempo, ya que te permite comprender mejor el panorama de datos de tu empresa. Si quieres ver cómo es la navegación por dominios, vuelve a la Figura 3-7.

Navegación por el linaje

A veces, tú puedes querer saber de dónde procede un determinado activo (ascendente), o hacia dónde ha viajado (descendente). Navegar aguas arriba en el linaje te permite averiguar por qué un determinado informe de análisis de datos está roto. Navegar por el linaje también te permite comprobar cuáles serían las consecuencias aguas abajo de los cambios en un determinado activo aguas arriba, si hicieras un cambio. También podrías navegar por el linaje para descubrir posibles mejoras en los flujos de procesamiento de datos existentes o para descubrir activos no utilizados en el entorno (como una tabla con flujos de entrada pero sin flujos de salida). O puedes buscar linajes que hayan cambiado (o no hayan cambiado) en lapsos de tiempo para identificar antiguos conductos de datos.

Un RPD de también puede documentar cómo se procesan los datos sensibles en sentido descendente. En el Capítulo 5 muestro estos ejemplos de búsqueda de linaje aplicada.

Nota

Recuerda que la funcionalidad de linaje variará de un proveedor a otro y que, en consecuencia, variarán tus posibilidades de búsqueda aplicada: acuérdate de evaluar la funcionalidad de linaje en tu selección de proveedores, si este criterio es importante para ti. Esta evaluación es compleja, y requiere mucho tiempo para encontrar las ventajas y desventajas de una determinada funcionalidad de linaje. Puedes, por ejemplo, ampliar el linaje para incluir el linaje del pasado de un activo determinado, elegir una funcionalidad de linaje que enriquezca el linaje de datos con metadatos adicionales para rastrear cómo viajan los activos de datos de alta calidad, etc.

Navegación gráfica

La última forma de navegar por tus datos es explorando visualmente tu grafo de conocimiento -si tu catálogo de datos está construido sobre un grafo de conocimiento, como se explica en los Capítulos 1 y 2-. El grafo de conocimiento enlaza maravillosamente todas las partes de tu catálogo de datos. Es la manifestación de todos los nodos reales de tu metamodelo. Es la forma ideal de maximizar la serendipia en tu búsqueda, ya que puedes hacer clic en todo el catálogo y descubrir nuevas conexiones.

Los gráficos son excelentes para ofrecer una visión general de las redes sociales. Los gráficos se utilizan como tales en estos dos sectores, por ejemplo:

  • Servicios policiales, militares y de inteligencia

  • Las universidades y el mundo académico en general

Para la policía, el ejército y los servicios de inteligencia, las redes de personas y las cosas que usan y tienen (como teléfonos, armas, documentos) expuestas visualmente en un gráfico son una necesidad absoluta. En las investigaciones policiales, los gráficos pueden cartografiar organizaciones delictivas como familias mafiosas o bandas, y ayudar a resolver los delitos que cometen estas organizaciones mostrando cómo se relacionan las personas -y las redes de personas-. Las estrategias y tácticas militares en el campo de batalla se apoyan hoy en día en los gráficos; forman parte de la guerra activa para cartografiar y derrotar al enemigo. Para los servicios de inteligencia, los gráficos generan visiones generales de las redes de extremistas bajo vigilancia, como los extremistas políticos o religiosos. La visión general de los gráficos ayuda a las agencias de inteligencia a infiltrarse y disolver estas redes antes de que actúen. IBM y Palantir, por ejemplo, ofrecen soluciones gráficas para este tipo de organizaciones.

Para las universidades y el mundo académico en general, se utilizan gráficos para cartografiar y visualizar redes de investigadores o temas de investigación. Se trata de mapas bibliométricos (a veces también llamados clusters y redes). Un bello ejemplo es este clúster bibliométrico de investigación en salud mental. Los mapas bibliométricos se utilizan para evaluar el rendimiento de las actividades de investigación en las universidades, y también en las predicciones industriales, ya que los clusters de patentes indican qué tipo de productos tienen previsto lanzar determinadas industrias.

Nota

Los ejemplos se incluyen para explicar el valor de la navegación en los gráficos, y también potencialmente en los catálogos de datos, donde esta función aún está en pañales.

Veamos un ejemplo. En la Figura 4-9, un director de relaciones públicas del departamento de comunicación de Hugin & Munin busca datos sobre promociones; algunos de los resultados de la búsqueda parecen sesgados, pero es difícil saber por qué. A continuación, el director de relaciones públicas busca "promoción" una vez más. El primer resultado es un conjunto de datos con detalles de planificación de promociones, y el director de relaciones públicas abre ese resultado como un gráfico. El gráfico visualiza todos los términos, procesos y fuentes de datos relacionados con la promoción. De repente, el director de relaciones públicas entiende por qué los resultados están sesgados. Alguien ha añadido la promoción como término libre en el glosario, no para representar la comunicación, sino la promoción profesional. Ese término va seguido de un signo de exclamación (!) porque el catálogo de datos detecta automáticamente que es un duplicado del término del glosario de dominio, que define las actividades de relaciones públicas. Por tanto, los activos etiquetados con el término libre del glosario deben filtrarse de la búsqueda. Con este conocimiento, el director de relaciones públicas puede configurar mejor la búsqueda para que refleje lo que está buscando.

Figura 4-9. Navegación por gráficos
Nota

Como acabas de leer, la búsqueda es un proceso. En muchos casos, será una serie de búsquedas que aumentan, disminuyen y reenfocan los resultados de la búsqueda, hasta que ésta finalmente coincide con la información que se necesita.

Buscar en un Catálogo de Datos Basado en Gráficos

Como se muestra en la Figura 3-4 , la búsqueda puede dividirse en un espectro. Va desde búsquedas simples fácilmente ejecutables hasta búsquedas avanzadas más complejas. En este último caso, el usuario final tiene que recordar tanto la sintaxis de la IRQL como evaluar si la semántica de la declaración de consulta refleja realmente lo que se está buscando. Esto es exigente, pero útil. La IRQL con la que busca el usuario ha sido diseñada por el proveedor del catálogo de datos: considero que la DCQL es la IRQL mínima aceptable. Es probable que la IRQL se amplíe con el tiempo, a medida que la tecnología evolucione con los comentarios de los clientes. Pero una IRQL nunca te permitirá buscarlo todo.

Sin embargo, para los catálogos de datos basados en grafos de conocimiento, es posible llevar la búsqueda aún más lejos y buscar realmente todo en el catálogo de datos. Esto requiere habilidades de búsqueda más allá de la IRQL del catálogo específico: en su lugar, aquí tendrías que dominar la DQL que coincida con la tecnología del catálogo en cuestión, por ejemplo, SPARQL, Cypher o Gremlin. Ten en cuenta que el linaje de datos también puede estar basado en grafos y que, si es así, esto hace que el linaje de datos se pueda buscar de forma similar.

Buscar con un DQL dentro de un catálogo de datos requiere un conjunto de habilidades técnicas en las que no se basan todos los casos de uso de los catálogos de datos. Pero si de verdad quieres organizar tus datos a tu gusto, y buscar en ellos como quieras, entonces esto es lo que hace falta. Piénsalo así: una IRQL siempre está diseñada por el proveedor; contendrá algunos de los elementos que son útiles para buscar, y dejará otros fuera. Pero el grafo DQL te permite buscar todo lo que quieras, porque está configurado para buscar todo lo que contiene el metamodelo, independientemente de cómo se haya definido.

Resumen

En este capítulo te has familiarizado con cómo aplicar la búsqueda. Los puntos clave son:

  • Al buscar datos, tienes que aplicar la mentalidad de un bibliotecario, no de un científico de datos. Buscar datos es una disciplina que se basa en la mecánica de búsqueda, pero también requiere experiencia y comprender los datos y el lenguaje de tu empresa.

  • La búsqueda simple básica es la forma de buscar que aplicarán la mayoría de los usuarios finales. Un catálogo de datos bien estructurado ofrecerá una búsqueda simple precisa, sobre todo si se basa en un grafo de conocimiento. Pero espera también un montón de enredos más profundos en los resultados de la búsqueda.

  • La búsqueda simple detallada requiere que conozcas la sintaxis de la IRQL de tu catálogo de datos. Así que requiere un poco de tiempo para escribir, o simplemente experiencia, pero a cambio obtienes resultados superprecisos.

  • La búsqueda simpleflexible también depende de la comprensión del IRQL, pero abre la búsqueda para dar más resultados, aumentando tu recuerdo y disminuyendo tu precisión, al tiempo que sigue siendo una forma mejor de dirigirse a un tema bien definido que la búsqueda simple básica.

  • Labúsqueda por intervalos consiste en buscar en intervalos, por ejemplo, un lapso de tiempo. Este tipo de búsqueda dará como resultado una precisión alta y una recuperación baja.

  • La búsqueda por bloques es una forma estructurada de buscar un tema complejo utilizando IRQL. Funciona mejor si tus glosarios son exhaustivos y se utilizan con gran especificidad.

  • La búsqueda por enunciados es una forma de buscar un tema complejo; simplemente reúne muchas cosas en una búsqueda. No es desestructurada, pero es desordenada.

  • Lanavegación por el glosario es una búsqueda en la que exploras para informarte e ilustrarte sobre la terminología empresarial.

  • Lanavegación por dominios, la navegación por linajes y la navegación por grafos son formas de buscar vertical, horizontal y relacionalmente, respectivamente, haciendo clic en el paisaje de datos.

En el próximo capítulo veremos cómo el compromiso con las partes interesadas marca la diferencia a la hora de implantar el catálogo de datos. Si todo el mundo comprende el valor del catálogo de datos y lo utiliza adecuadamente, la implantación irá sobre ruedas. Pero no siempre es así, y en el próximo capítulo veremos cómo unir a las partes interesadas para conseguir un catálogo de datos bien desarrollado.

1 Robert S. Taylor, "El proceso de hacer preguntas", Documentación Americana 13, no. 4 (octubre de 1962): 391-96.

2 Las necesidades de información pueden agruparse de distintas formas; esta agrupación procede de Louis Rosenfeld et al., Information Architecture: For the Web and Beyond (Sebastopol, CA: O'Reilly, 2015), 45.

Get El Catálogo de Datos de la Empresa now with the O’Reilly learning platform.

O’Reilly members experience books, live events, courses curated by job role, and more from O’Reilly and nearly 200 top publishers.