Capítulo 12. Búsqueda semántica y similitud

Este trabajo se ha traducido utilizando IA. Agradecemos tus opiniones y comentarios: translation-feedback@oreilly.com

Una buena parte de los datos disponibles en el mundo están en forma de documentos: documentos creados por humanos para ser consumidos por humanos y, por tanto, expresados en lenguaje natural. Pero el lenguaje natural no es fácil de explotar programáticamente porque no tiene una estructura bien definida como una tabla (base de datos o archivo CSV) o una jerarquía (documento JSON o XML). Cualquier uso automatizado de un documento en lenguaje natural requerirá cierto preprocesamiento para extraer de él información estructurada. Si quieres ir más allá de los aspectos básicos del procesamiento de textos (recuento de palabras, análisis basado en texto), esto sólo puede conseguirse utilizando una tecnología llamada procesamiento del lenguaje natural (PLN). En este capítulo, verás cómo los tipos de estructuras que resultan de aplicar técnicas de PLN encajan de forma natural en una estructura de grafos y cómo la construcción de grafos de conocimiento a partir de datos no estructurados permite una explotación más sofisticada.

Búsqueda en datos no estructurados

La primera forma obvia de que haga un uso programático del contenido de los documentos en lenguaje natural es permitir la búsqueda. La búsqueda es un área que ha tenido una historia reciente increíble. En sus primeros días, hace sólo dos décadas (y sorprendentemente todavía ...

Get Construir grafos de conocimiento now with the O’Reilly learning platform.

O’Reilly members experience books, live events, courses curated by job role, and more from O’Reilly and nearly 200 top publishers.