Capítulo 4. Aplicar la búsqueda: De los patrones simples a los avanzados
Este trabajo se ha traducido utilizando IA. Agradecemos tus opiniones y comentarios: translation-feedback@oreilly.com
En el capítulo anterior, hablamos de cómo funciona la búsqueda en un catálogo de datos y de cómo la comprensión de la mecánica de la búsqueda puede mejorar tu forma de buscar y, por tanto, aumentar el valor de tu catálogo de datos. Debes recordar que la búsqueda depende de lo bien que organices los datos en tu catálogo de datos. Aunque compongas la frase de consulta perfecta para lo que necesitas, la búsqueda tendrá dificultades para devolver algo si el catálogo de datos tiene metadatos deficientes.
Esto nos lleva a cómo aplicar la búsqueda. Aplicar la búsqueda es un arte distinto de comprender la tecnología en sí. En primer lugar, cuando busques datos, tienes que buscar como un bibliotecario formado para buscar datos, y no como un científico de datos formado para buscar en los datos. Con la mentalidad de un bibliotecario, encontrarás formas creativas de desbloquear las funciones de búsqueda. La búsqueda simple puede utilizarse de diversas formas que aumentan y disminuyen la precisión para buscar más ampliamente o sólo unos pocos resultados. La navegación permite navegar por los datos y comprender su contexto, y una ventaja adicional es que este contexto puede utilizarse para refinar tanto la búsqueda simple como la compleja. Y del mismo modo que la búsqueda simple puede utilizarse de muchas formas distintas, también puede hacerlo la búsqueda compleja.
Lo que aprenderás en este capítulo es sólo el principio. Tendrás que seguir adaptando y perfeccionando la búsqueda aplicada para que se ajuste al lenguaje y la finalidad de tu empresa.
Busca como los bibliotecarios, no como los científicos de datos
Los científicos de datos sobresalen en el análisis de datos: desde conjuntos de datos pequeños a masivos, tienen las herramientas y la mentalidad para buscar en los datos y extraer los hallazgos que necesitan. Ese es su superpoder. Sin embargo, buscar los datos en los que trabajar puede ser un verdadero reto, porque las habilidades que les hacen muy buenos buscando en los datos no se aplican necesariamente a la búsqueda de datos. Como recordarás del Capítulo 3, hay una diferencia significativa entre buscar datos y buscar en los datos.
Los bibliotecarios, en cambio, son muy buenos localizando todo tipo de material bajo el sol: libros, publicaciones periódicas, documentos, ¡todo! Si lo pides, probablemente puedan buscarlo y encontrarlo. Y entre sus superpoderes también está el de buscar datos y saber qué datos necesitas.
A diferencia de la ciencia de datos, que sólo ha cobrado importancia en las últimas décadas, la biblioteconomía y la ciencia de la información (LIS) existen desde hace cientos de años, con otros tantos años perfeccionando el arte de organizar el conocimiento y buscarlo.
Buscar como bibliotecario significa, ante todo, ser bueno evaluando una necesidad de información, porque la necesidad de información determina cómo se buscan los datos. Necesidad de información fue acuñado como término en 1962 por Robert S. Taylor como la forma en que formulamos preguntas a las bases de datos de referencia.1
Tu necesidad de información puede ser grande o pequeña. Pregúntate si estás buscando
-
Todo
-
Algunas cosas buenas
-
Lo único correcto
-
Una cosa que necesitas de nuevo2
Tu necesidad de información determina cómo buscas los datos, ya que las necesidades expresan diferentes tamaños e intenciones.
Todo conlleva una búsqueda compleja, y tu objetivo es una alta recuperación a expensas de la precisión. Pero puedes hacerlo de muchas formas distintas, como verás más adelante en este capítulo.
Algunas cosas buenas es una necesidad de información que no está tan clara. Puedes buscar una recuperación relativamente alta o una precisión relativamente alta, pero no ambas.
Lo único correcto, como alude su nombre, tiene como objetivo encontrar un único activo, o un conjunto de activos definido con precisión. Por tanto, estas búsquedas buscan la precisión.
Por último, una cosa que necesitas de nuevo se basa en activos que ya conoces. También busca la precisión, pero es menos difícil de buscar que la única cosa correcta.
Lo que tienes que tener en cuenta es que buscar datos en repositorios de metadatos como un catálogo de datos puede ser un proceso largo (como ya señaló Taylor en 1962). Así que no te impacientes. Estamos acostumbrados a poder buscarlo todo en Google, pero eso es una simple búsqueda que te juega una mala pasada. La búsqueda de datos no siempre es así; puede llevar muchos pasos antes de que encuentres lo que buscas, y eso está bien. Puede que tengas que hacer ajustes en las búsquedas, tanto de las traducciones de lo que se pretende con una búsqueda a cómo funciona el IRQL específico del sistema y, a partir de ahí, qué términos se incluyen, cuáles de ellos se excluyen o modifican posteriormente, y así sucesivamente, en una larga búsqueda de múltiples pasos para obtener los resultados más relevantes y valiosos. Esto significa que la búsqueda no es sólo una cuestión de traducir una necesidad de información en una búsqueda. El proceso es mucho más sutil, y requiere experiencia.
Buscar datos es como conducir un coche. A veces, das un paseo corto para recoger cosas. De vez en cuando, vas por una carretera larga y cansada en línea recta. De vez en cuando, atraviesas montañas con interminables curvas cerradas, sensación de vértigo, subiendo y bajando, hasta que llegas al destino. O sucede que vas a un lugar sólo para descubrir que necesitas ir a un segundo lugar, y luego a un tercero, antes de poder volver a casa con las cosas que habías salido a buscar. A veces te encuentras en zonas sin normas, a veces el tráfico es abrumador, a veces las carreteras son viejas y están llenas de agujeros. Y a veces, simplemente vas tan rápido como puedes porque es divertido.
Los bibliotecarios combinan todo tipo de métodos y técnicas cuando buscan, y tú también deberías hacerlo. Las siguientes secciones repasarán algunos de los patrones de búsqueda más utilizados. Aunque cada uno de ellos puede funcionar bien de forma aislada, funcionan mejor cuando se combinan.
Patrones de búsqueda
¿Has notado alguna vez que la forma en que buscas depende de lo que buscas? En esta sección, hablaré de los patrones típicos de la búsqueda aplicada. Verás cómo el recuerdo, la precisión, la serendipia, la exhaustividad, la especificidad y otros conceptos entran en juego cuando buscas.
Todos los patrones de búsqueda se enumeran en la Tabla 4-1, con un nombre de búsqueda, un tipo de búsqueda, una breve descripción y el nivel relativo de precisión y recuperación de la búsqueda. Ten en cuenta que la precisión y la recuperación no son aplicables a la navegación.
Consejo
Observa cómo el tipo de búsqueda suaviza la distinción entre búsqueda simple y búsqueda compleja.
Buscar nombre | Tipo de búsqueda | Descripción | Precisión | Retirada |
---|---|---|---|---|
Búsqueda simple básica | Búsqueda simple | Algunos golpes precisos y mucho ruido | Alta | Baja |
Búsqueda simple detallada | Búsqueda combinatoria simple | Búsqueda simple formulada lentamente, porque la búsqueda debe formularse con precisión | Alta | Baja |
Búsqueda sencilla y flexible | Búsqueda combinatoria simple | Búsqueda truncada que facilita y amplía una búsqueda simple | Baja | Alta |
Búsqueda por rangos | Búsqueda combinatoria compleja | Búsqueda por rango que permite recuperar activos entre dos valores | Alta | Baja |
Búsqueda en bloque | Búsqueda combinatoria compleja | Combinación de términos seleccionados para representar un tema | Baja | Alta |
Búsqueda de declaraciones | Búsqueda combinatoria compleja | Declaración larga de las condiciones precisas que deben cumplir los activos | Alta | Baja |
Glosario de navegación | Examinar búsqueda | Las búsquedas de palabras concretas dan como resultado listas de palabras en el glosario por las que se puede navegar | - | - |
Navegación por el dominio | Examinar búsqueda | Dominios como se explica en el Capítulo 3 | - | - |
Navegación por el linaje | Examinar búsqueda | Linaje, como se explica en el capítulo 3 | - | - |
Navegación gráfica | Examinar búsqueda | Gráficos como se explica en el Capítulo 3 | - | - |
Hablemos de cada una de ellas.
Búsqueda simple básica
En en general, tus búsquedas casuales durante una jornada laboral típica son probablemente búsquedas simples básicas con un par de palabras en la barra de búsqueda. Haces este tipo de búsquedas cuando no aspiras a nada cercano al recuerdo total: sólo quieres algo bueno, rápido. Lo que importa en este tipo de búsqueda es el resultado que aparece en la parte superior de los resultados. Ese resultado, visto aisladamente del resto del resultado de la búsqueda, debe ser un resultado de precisión perfecta. Todo lo que esté por debajo de ese resultado superior no importa.
Búsquedas simples utiliza términos de búsqueda en lenguaje llano y no lenguaje de consulta. La búsqueda simple básica es el tipo de búsqueda menos complicada que puedes hacer, ya que consiste sólo en uno o dos términos de búsqueda en lenguaje llano, como "buen tiempo" o "verano".
Por ejemplo, supongamos que un representante de ventas de Hugin & Munin asignado a Suecia quiere encontrar el informe BI de ventas más reciente y relevante de su zona. Podría hacer una búsqueda simple básica de ventas, como se muestra en la Figura 4-1. El representante de ventas, que es un usuario final medio, espera que el resultado principal sea exactamente lo que estaba buscando. Si no lo es, pasa a patrones de búsqueda más complejos para intentar encontrar lo que busca. Como la búsqueda simple tiene en cuenta todas las tecnologías mencionadas en el Capítulo 3, como la predicción, la lógica difusa y el historial de comportamiento de búsqueda, hace un buen trabajo al averiguar lo que quiere el usuario medio.
El representante de ventas esperará obtener el informe BI de ventas más reciente y relevante para el área en la que el usuario es representante de ventas. Esto refleja el golpe más preciso y relevante en la parte superior, basado en quién es el usuario, qué tipo de datos le interesan más y cómo ha buscado anteriormente.
Consejo
Si tu catálogo de datos se basa en un grafo de conocimiento, espera disponer de una función de búsqueda simple muy potente. Los resultados de la búsqueda te ilustrarán sobre los contextos empresariales de un determinado activo y se clasificarán con gran precisión. Este es, por ejemplo, el caso del Gráfico de Conocimiento de Google.
La búsqueda simple básica será la única forma en que muchos usuarios finales utilizarán el catálogo de datos. Esta experiencia similar a la de un motor de búsqueda crea una impresión de facilidad de búsqueda ambiental, pero no es eso. Es el tipo de búsqueda más fácil. Ofrecerá a los usuarios finales precisión a expensas de la recuperación. Los usuarios podrán encontrar lo único correcto en la parte superior de los resultados de búsqueda.
Advertencia
Es habitual que los proveedores de catálogos de datos muestren la búsqueda simple básica como la única forma de buscar en el material de ventas: a menudo es esta forma exacta de buscar la que se encarga de todo lo que buscan los usuarios. Sin embargo, es imposible que este tipo de búsqueda satisfaga todas las necesidades de información. Pero otros tipos de búsqueda son más difíciles y requieren más tiempo, por lo que rara vez se promueven.
Búsqueda simple detallada
A veces buscas un tipo de cosa y sólo eso, y sabes cómo expresarlo, si te concentras. Se trata de una búsqueda relativamente sencilla que no es rápida, porque tienes que hacer bien la sintaxis de búsqueda; es detallada. Puede que incluso tengas que hacer un par de búsquedas iniciales para comprobar que todo funciona como es debido.
Búsqueda simple detallada es cuando necesitas utilizar un poco de lenguaje de consulta para formular tu declaración de búsqueda. Esta búsqueda es lenta, porque depende de que los usuarios escriban valores exactos, lo que requiere atención, y esto ralentiza el proceso de búsqueda. El tipo de búsqueda es una búsqueda combinatoria simple, porque es una sentencia de búsqueda relativamente sencilla que se combina con un solo operador booleano. Si echas un vistazo al espectro de búsqueda en la Figura 3-4, nos estamos alejando de lo fácil para acercarnos a lo difícil.
En Hugin & Munin, nuestra empresa ficticia de arquitectura sostenible, los usuarios finales hacen uso de su bien conservado glosario global, que les permite buscar en palabras finamente granuladas, por ejemplo, tipos de madera: duramen, abeto, pino, etc. Las palabras para madera en el glosario global son los nombres estándar en inglés de los tipos de madera combinados con su nombre en latín. Supongamos que quieres buscar activos con el administrador John Miller que contengan datos sobre fresnos del glosario global, así
GlobalGlossary:Fresno Fraxinus Y AssetSteward:John Miller |
Es posible escribir esto en la vista de búsqueda simple sin perder completamente la visión general de la búsqueda escrita dentro de la barra de búsqueda simple, como en la Figura 4-2.
Esta búsqueda reúne todos los activos con el término del glosario global "Fresno Fraxinus" que tienen a "John Miller" como administrador del activo. En esta búsqueda, el usuario quizá tendría que determinar la forma correcta de expresar el tipo de madera en el glosario global antes de realizar la búsqueda. Esta búsqueda tardará algún tiempo en construirse, pero ofrecerá resultados precisos, ya que sólo se devuelven los activos con las características distintivas de la búsqueda. Así que, a diferencia de la búsqueda simple básica, aquí todos los resultados son relevantes, la precisión es alta y la recuperación baja, y la propia búsqueda tarda un poco en crearse.
También puedes aflojar la sintaxis y pasar de un patrón de búsqueda simple detallado a un patrón de búsqueda flexible. En ese caso, las búsquedas simples no son totalmente precisas, pero se vuelven relativamente rápidas.
Búsqueda simple y flexible
También es posible que a veces tengas que realizar búsquedas imprecisas, que te obligarán a examinar detenidamente los resultados de la búsqueda para encontrar los bienes que tenías en mente.
Eso es búsqueda simple flexible, y es un poco más rápida de escribir que la búsqueda simple detallada porque depende menos de la sintaxis exacta; no necesitas conocer los valores exactos de tu sentencia de consulta. La búsqueda simple flexible también es una búsqueda combinatoria simple, pero permite un mayor conjunto de resultados de búsqueda y una mayor recuperación, a expensas de la precisión.
Por ejemplo, un grupo de empleados de Hugin & Munin del departamento de comunicación necesita saber qué tipo de madera utiliza la empresa para incluir algunos detalles en un comunicado de prensa. Se han enterado de que la información está en un archivo CSV. No saben cómo se describe el activo en el catálogo, salvo que contiene datos sobre la madera y que es un archivo CSV. Podrían buscar lo siguiente, que se muestra en la Figura 4-3:
FreeGlossary:*Madera* AND FormatDefault:.csv |
Esta búsqueda da como resultado todos los activos que representan archivos CSV y que tienen términos de la folcsonomía con la palabra "madera", pero truncados por ambos lados para que los resultados estén abiertos a todas las combinaciones con madera. Así, por ejemplo, se incluyen automáticamente en la búsqueda términos del glosario libre como "suelo de madera", "madera bonita", "maderas", etc.
Este tipo de búsqueda proporcionará una alta recuperación y, por tanto, comprometerá la precisión. Y esa es la cuestión: el usuario final no sabe cómo buscar de forma que ofrezca una precisión completa y, por tanto, debe aspirar a una mayor recuperación para recuperar un grupo de activos en el que se encuentre el activo.
Búsqueda por rangos
A veces tienes que buscar algo entre dos puntos, como fechas o cualquier cosa que tenga lógica organizativa en números de serie.
Eso se hace en con la búsqueda por rango. Es un tipo de búsqueda combinatoria compleja más refinada, que utiliza uno o más operadores booleanos y al menos dos valores que establecen un rango.
Por ejemplo, si buscas un conjunto determinado de hipótesis que se pusieron a prueba en algún momento en torno a cuando se llevaron a cabo determinados proyectos, podrías buscar proyectos de investigación así:
> RES.100.7.1003 Y < RES.100.7.1837 |
También pueden ser los números de las habitaciones en los planos de planta, los equipos, etc.
Por ejemplo, un equipo de proyecto de Hugin & Munin quiere analizar todas las imágenes de duramen entre noviembre de 2012 y febrero de 2018. Realizan una búsqueda como la que se muestra en la Figura 4-4:
AssetTypeFree:Imagen de duramen AND (< 01.31.2018 AND > 10.31.2012) |
Esa búsqueda devuelve todos los resultados que se refieren a imágenes de duramen en el periodo de tiempo especificado.
Búsqueda en bloque
Supongamos que un cliente descontento ha decidido presentar una demanda contra Hugin & Munin. La casa que Hugin & Munin le construyó tiene grietas en la fachada, y el cliente argumenta que la madera con la que está construida la casa no es lo bastante sólida.
Búsqueda por bloques es una búsqueda combinatoria compleja muy exhaustiva, en la que buscas un tema completo. Generalmente, en una búsqueda de este tipo intervienen muchas cosas y palabras diferentes, y las ordenas en grupos relacionados como bloques, de ahí el nombre de búsqueda por bloques.
Los abogados de Hugin & Munin empiezan su diligencia debida buscando. Utilizando su formación básica en DCQL, buscan en el catálogo de datos informes y datos de prueba que examinen la resistencia de distintos tipos de madera en las propias construcciones de la empresa. Combinan una gran selección de palabras para maximizar el recuerdo: tienen que obtener todos y cada uno de los activos potencialmente relevantes, con la consecuencia de tener poca precisión, por lo que prevén examinar bastante los resultados de la búsqueda. Realizan la búsqueda como se muestra en la Figura 4-5:
(DomainTerm:((Pino OR Fresno OR Haya OR Roble OR Madera) NOT Tilo) OR FreeTerm:Madera OR GlobalTerm:(Pino Pinus OR Fresno Fraxinus OR Haya Fagus OR Roble Quercus) NOT Tilo Tilia) AND DomainTerm:(Rusticidad OR Solidez OR Resistencia OR Resiliencia) |
Los resultados de la búsqueda mostrarán activos que tengan una o más combinaciones de términos para madera y términos para rusticidad.
La búsqueda consiste en términos del glosario de dominios diferentes que describen tipos de madera en inglés estándar. Los activos deben tener una o más de estas palabras, a menos que el activo contenga el siguiente valor, el término del glosario libre madera, o uno o más de los términos del glosario global de la madera, ya que la palabra "madera" no es un término que se encuentre en el glosario global. También puede contener una mezcla de estas palabras. Si se cumplen uno o varios de estos criterios, entonces deben emparejarse con los términos del glosario del dominio para la rusticidad.
Pero no todos los abogados han sido formados en el lenguaje de consulta del catálogo de datos, y se marean un poco intentando controlar la sintaxis al tiempo que se centran en la semántica. Por eso, algunos abogados se limitan a utilizar el constructor de búsquedas. Entran en el constructor de búsquedas desde el campo de búsqueda avanzada de. El constructor de búsqueda permite a los usuarios finales formular su búsqueda con opciones de apuntar y hacer clic, lo que elimina el estrés de controlar la sintaxis y se centra sólo en la semántica. Puedes ver el constructor de búsqueda en la Figura 4-6.
El constructor de búsquedas de Hugin y Munin crea una visión general visualmente navegable de las búsquedas largas. O significa operador, C significa condición. Todos los paréntesis que aparecen en gris son opcionales; se activan si el usuario final hace clic en ellos. Esta forma de trocear la búsqueda compleja facilita mantener una visión general de lo que hace la búsqueda, de modo que sea fácil vigilar especialmente la semántica.
Nota
Los constructores de búsqueda como el de la Figura 4-6 son componentes estándar en bases de datos de referencia como PubMed. Muchos catálogos de datos, como data.world, también tienen un constructor de búsqueda.
Este tipo de búsqueda también se denomina búsqueda en bloque en LIS. Se practica como método para obtener grandes conjuntos de resultados en búsquedas complejas. Normalmente, este tipo de búsqueda tiene varias fases, en las que se añaden palabras, se eliminan otras, en una serie de ajustes que hacen que el buscador sea capaz de traducir los datos que necesita al lenguaje y la estructura del catálogo de datos, basándose en el análisis de los aciertos obtenidos en los pasos anteriores de la búsqueda.
Además, se trata de un tipo de búsqueda que hace uso de cómo se aplican los glosarios de tu catálogo de datos. Cuanto mayor sea la especificidad, es decir, cuanto más se apliquen realmente los términos de los glosarios en los activos del catálogo de datos (utilizando la exhaustividad de los glosarios), más funcionará tu mecanismo de recuperación.
Consejo
¿Recuerdas La ley de Zipf del Capítulo 3? Si sólo confías en los metadatos rastreados, tus posibilidades de éxito con la búsqueda por bloques son escasas. Necesitas términos de glosario aplicados por humanos, no máquinas, para que tus activos se distingan unos de otros.
La búsqueda en bloque es difícil de construir, pero es muy importante dominarla. En casos de uso legal, de cumplimiento y de búsquedas complejas para la innovación, la búsqueda en bloque es el tipo de búsqueda que hará o deshará un resultado positivo para tu empresa.
Y a veces tienes que hacer una búsqueda compleja que en realidad no es un tema bien definido con términos de glosario asignados, sino una acumulación más desordenada de cosas sobre las que casualmente alguien quiere saber más.
Búsqueda de declaraciones
La mayoría de las búsquedas combinatorias complejas de son búsquedas de enunciados: una mezcla variada de personas, sistemas, dominios y todo lo demás a partir de lo cual se pueden construir búsquedas. Es necesario realizar este tipo de búsquedas en muchas situaciones dispares, que van desde la gestión del catálogo de datos, a la recopilación de datos para un proyecto, pasando por garantizar que los activos asociados a un administrador determinado que cambia de puesto se transfieren a un nuevo administrador (para este último caso de uso, consulta el Capítulo 7 sobre ciclos de vida).
La Figura 4-7 muestra un ejemplo de búsqueda realizada por el equipo de descubrimiento de datos de Hugin & Munin. Quieren averiguar cuántos informes de Tableau no tienen un propietario en Legal, Finanzas o TI.
Esta búsqueda devuelve todos los informes de Tableau de los departamentos creados después del 1 de enero de 2022 que no tienen propietario.
El equipo de descubrimiento de datos utilizará este resultado de búsqueda para ponerse en contacto con los administradores de datos de los activos para pedir que se añada un propietario del activo.
Patrones de navegación
Patrones de navegación son, de hecho, patrones de búsqueda, pero normalmente no requieren que el usuario final formule frases de búsqueda (excepto para las búsquedas en el glosario). En su lugar, la navegación funciona haciendo clic hacia adelante y hacia atrás en listas de términos de glosarios, linajes o gráficos. Piensa en la navegación como una fase entre otros tipos de búsqueda que hace que los usuarios descubran y aprendan el lenguaje y los dominios de su empresa. Esto les permitirá buscar con más destreza si pueden navegar por el panorama de los datos.
Glosario Navegación
A veces, tú puedes simplemente querer explorar un tema para comprender mejor un dominio. Tienes muchas opciones, pero una de ellas es consultar glosarios.
Un ejemplo de Hugin & Munin es el de un nuevo empleado que quiere entender mejor cómo se utiliza la pintura como tratamiento superficial de las casas de madera. El usuario escribe "pintura" en la barra de búsqueda del glosario, como se ve en la Figura 4-8.
Aquí, la diferencia entre los distintos glosarios destaca claramente: el glosario global está formado por términos muy controlados que se aplican en toda la empresa, el glosario de dominio se refiere a un único dominio, y el glosario libre sólo añade lo que le apetece a la gente. Si profundizas en los glosarios, verás el nivel de organización que hay en ellos, como se muestra en la Figura 2-11.
Exploración de dominios
Exploración de dominios es cuando recorres las capacidades o procesos de tu empresa. Este tipo de navegación suele estar motivada por la falta de contexto: te permite hacerte una idea de dónde podrían estar ubicados los activos potencialmente relevantes. Por ejemplo, puede que alguien esté trabajando en un proyecto sobre perfiles de clientes y quiera saber si entra en el ámbito de la Gestión de la Información del Cliente o de la Gestión de las Preferencias del Cliente. Esto podría indicarles con quién tienen que hablar en relación con los problemas.
También pueden deberse simplemente a la pura curiosidad, y ese tipo de navegación nunca es una pérdida de tiempo, ya que te permite comprender mejor el panorama de datos de tu empresa. Si quieres ver cómo es la navegación por dominios, vuelve a la Figura 3-7.
Navegación por el linaje
A veces, tú puedes querer saber de dónde procede un determinado activo (ascendente), o hacia dónde ha viajado (descendente). Navegar aguas arriba en el linaje te permite averiguar por qué un determinado informe de análisis de datos está roto. Navegar por el linaje también te permite comprobar cuáles serían las consecuencias aguas abajo de los cambios en un determinado activo aguas arriba, si hicieras un cambio. También podrías navegar por el linaje para descubrir posibles mejoras en los flujos de procesamiento de datos existentes o para descubrir activos no utilizados en el entorno (como una tabla con flujos de entrada pero sin flujos de salida). O puedes buscar linajes que hayan cambiado (o no hayan cambiado) en lapsos de tiempo para identificar antiguos conductos de datos.
Un RPD de también puede documentar cómo se procesan los datos sensibles en sentido descendente. En el Capítulo 5 muestro estos ejemplos de búsqueda de linaje aplicada.
Nota
Recuerda que la funcionalidad de linaje variará de un proveedor a otro y que, en consecuencia, variarán tus posibilidades de búsqueda aplicada: acuérdate de evaluar la funcionalidad de linaje en tu selección de proveedores, si este criterio es importante para ti. Esta evaluación es compleja, y requiere mucho tiempo para encontrar las ventajas y desventajas de una determinada funcionalidad de linaje. Puedes, por ejemplo, ampliar el linaje para incluir el linaje del pasado de un activo determinado, elegir una funcionalidad de linaje que enriquezca el linaje de datos con metadatos adicionales para rastrear cómo viajan los activos de datos de alta calidad, etc.
Navegación gráfica
La última forma de navegar por tus datos es explorando visualmente tu grafo de conocimiento -si tu catálogo de datos está construido sobre un grafo de conocimiento, como se explica en los Capítulos 1 y 2-. El grafo de conocimiento enlaza maravillosamente todas las partes de tu catálogo de datos. Es la manifestación de todos los nodos reales de tu metamodelo. Es la forma ideal de maximizar la serendipia en tu búsqueda, ya que puedes hacer clic en todo el catálogo y descubrir nuevas conexiones.
Los gráficos son excelentes para ofrecer una visión general de las redes sociales. Los gráficos se utilizan como tales en estos dos sectores, por ejemplo:
-
Servicios policiales, militares y de inteligencia
-
Las universidades y el mundo académico en general
Para la policía, el ejército y los servicios de inteligencia, las redes de personas y las cosas que usan y tienen (como teléfonos, armas, documentos) expuestas visualmente en un gráfico son una necesidad absoluta. En las investigaciones policiales, los gráficos pueden cartografiar organizaciones delictivas como familias mafiosas o bandas, y ayudar a resolver los delitos que cometen estas organizaciones mostrando cómo se relacionan las personas -y las redes de personas-. Las estrategias y tácticas militares en el campo de batalla se apoyan hoy en día en los gráficos; forman parte de la guerra activa para cartografiar y derrotar al enemigo. Para los servicios de inteligencia, los gráficos generan visiones generales de las redes de extremistas bajo vigilancia, como los extremistas políticos o religiosos. La visión general de los gráficos ayuda a las agencias de inteligencia a infiltrarse y disolver estas redes antes de que actúen. IBM y Palantir, por ejemplo, ofrecen soluciones gráficas para este tipo de organizaciones.
Para las universidades y el mundo académico en general, se utilizan gráficos para cartografiar y visualizar redes de investigadores o temas de investigación. Se trata de mapas bibliométricos (a veces también llamados clusters y redes). Un bello ejemplo es este clúster bibliométrico de investigación en salud mental. Los mapas bibliométricos se utilizan para evaluar el rendimiento de las actividades de investigación en las universidades, y también en las predicciones industriales, ya que los clusters de patentes indican qué tipo de productos tienen previsto lanzar determinadas industrias.
Nota
Los ejemplos se incluyen para explicar el valor de la navegación en los gráficos, y también potencialmente en los catálogos de datos, donde esta función aún está en pañales.
Veamos un ejemplo. En la Figura 4-9, un director de relaciones públicas del departamento de comunicación de Hugin & Munin busca datos sobre promociones; algunos de los resultados de la búsqueda parecen sesgados, pero es difícil saber por qué. A continuación, el director de relaciones públicas busca "promoción" una vez más. El primer resultado es un conjunto de datos con detalles de planificación de promociones, y el director de relaciones públicas abre ese resultado como un gráfico. El gráfico visualiza todos los términos, procesos y fuentes de datos relacionados con la promoción. De repente, el director de relaciones públicas entiende por qué los resultados están sesgados. Alguien ha añadido la promoción como término libre en el glosario, no para representar la comunicación, sino la promoción profesional. Ese término va seguido de un signo de exclamación (!)
porque el catálogo de datos detecta automáticamente que es un duplicado del término del glosario de dominio, que define las actividades de relaciones públicas. Por tanto, los activos etiquetados con el término libre del glosario deben filtrarse de la búsqueda. Con este conocimiento, el director de relaciones públicas puede configurar mejor la búsqueda para que refleje lo que está buscando.
Buscar en un Catálogo de Datos Basado en Gráficos
Como se muestra en la Figura 3-4 , la búsqueda puede dividirse en un espectro. Va desde búsquedas simples fácilmente ejecutables hasta búsquedas avanzadas más complejas. En este último caso, el usuario final tiene que recordar tanto la sintaxis de la IRQL como evaluar si la semántica de la declaración de consulta refleja realmente lo que se está buscando. Esto es exigente, pero útil. La IRQL con la que busca el usuario ha sido diseñada por el proveedor del catálogo de datos: considero que la DCQL es la IRQL mínima aceptable. Es probable que la IRQL se amplíe con el tiempo, a medida que la tecnología evolucione con los comentarios de los clientes. Pero una IRQL nunca te permitirá buscarlo todo.
Sin embargo, para los catálogos de datos basados en grafos de conocimiento, es posible llevar la búsqueda aún más lejos y buscar realmente todo en el catálogo de datos. Esto requiere habilidades de búsqueda más allá de la IRQL del catálogo específico: en su lugar, aquí tendrías que dominar la DQL que coincida con la tecnología del catálogo en cuestión, por ejemplo, SPARQL, Cypher o Gremlin. Ten en cuenta que el linaje de datos también puede estar basado en grafos y que, si es así, esto hace que el linaje de datos se pueda buscar de forma similar.
Buscar con un DQL dentro de un catálogo de datos requiere un conjunto de habilidades técnicas en las que no se basan todos los casos de uso de los catálogos de datos. Pero si de verdad quieres organizar tus datos a tu gusto, y buscar en ellos como quieras, entonces esto es lo que hace falta. Piénsalo así: una IRQL siempre está diseñada por el proveedor; contendrá algunos de los elementos que son útiles para buscar, y dejará otros fuera. Pero el grafo DQL te permite buscar todo lo que quieras, porque está configurado para buscar todo lo que contiene el metamodelo, independientemente de cómo se haya definido.
Resumen
En este capítulo te has familiarizado con cómo aplicar la búsqueda. Los puntos clave son:
-
Al buscar datos, tienes que aplicar la mentalidad de un bibliotecario, no de un científico de datos. Buscar datos es una disciplina que se basa en la mecánica de búsqueda, pero también requiere experiencia y comprender los datos y el lenguaje de tu empresa.
-
La búsqueda simple básica es la forma de buscar que aplicarán la mayoría de los usuarios finales. Un catálogo de datos bien estructurado ofrecerá una búsqueda simple precisa, sobre todo si se basa en un grafo de conocimiento. Pero espera también un montón de enredos más profundos en los resultados de la búsqueda.
-
La búsqueda simple detallada requiere que conozcas la sintaxis de la IRQL de tu catálogo de datos. Así que requiere un poco de tiempo para escribir, o simplemente experiencia, pero a cambio obtienes resultados superprecisos.
-
La búsqueda simpleflexible también depende de la comprensión del IRQL, pero abre la búsqueda para dar más resultados, aumentando tu recuerdo y disminuyendo tu precisión, al tiempo que sigue siendo una forma mejor de dirigirse a un tema bien definido que la búsqueda simple básica.
-
Labúsqueda por intervalos consiste en buscar en intervalos, por ejemplo, un lapso de tiempo. Este tipo de búsqueda dará como resultado una precisión alta y una recuperación baja.
-
La búsqueda por bloques es una forma estructurada de buscar un tema complejo utilizando IRQL. Funciona mejor si tus glosarios son exhaustivos y se utilizan con gran especificidad.
-
La búsqueda por enunciados es una forma de buscar un tema complejo; simplemente reúne muchas cosas en una búsqueda. No es desestructurada, pero es desordenada.
-
Lanavegación por el glosario es una búsqueda en la que exploras para informarte e ilustrarte sobre la terminología empresarial.
-
Lanavegación por dominios, la navegación por linajes y la navegación por grafos son formas de buscar vertical, horizontal y relacionalmente, respectivamente, haciendo clic en el paisaje de datos.
En el próximo capítulo veremos cómo el compromiso con las partes interesadas marca la diferencia a la hora de implantar el catálogo de datos. Si todo el mundo comprende el valor del catálogo de datos y lo utiliza adecuadamente, la implantación irá sobre ruedas. Pero no siempre es así, y en el próximo capítulo veremos cómo unir a las partes interesadas para conseguir un catálogo de datos bien desarrollado.
1 Robert S. Taylor, "El proceso de hacer preguntas", Documentación Americana 13, no. 4 (octubre de 1962): 391-96.
2 Las necesidades de información pueden agruparse de distintas formas; esta agrupación procede de Louis Rosenfeld et al., Information Architecture: For the Web and Beyond (Sebastopol, CA: O'Reilly, 2015), 45.
Get El Catálogo de Datos de la Empresa now with the O’Reilly learning platform.
O’Reilly members experience books, live events, courses curated by job role, and more from O’Reilly and nearly 200 top publishers.