Capítulo 2. La pila RAG básica
Este trabajo se ha traducido utilizando IA. Agradecemos tus opiniones y comentarios: translation-feedback@oreilly.com
En el Capítulo 1, presentamos la idea central de la generación aumentada por recuperación: permitir que los grandes modelos de lenguaje accedan a conocimiento externo en lugar de depender únicamente de lo que aprendieron durante el entrenamiento. En este capítulo, nos adentramos más en los componentes técnicos que permiten que un sistema RAG funcione en la práctica. Estos componentes forman un flujo de trabajo por donde circulan los datos —a menudo llamado la pila RAG— que abarca desde la preparación de documentos sin procesar hasta la generación de respuestas de alta calidad y basadas en el contexto.
Empezamos por examinar los dos flujos principales que definen todo sistema RAG: el flujo de ingestión, que transforma y almacena datos para proporcionar a un LLM conocimientos desconocidos en el futuro, y el flujo de consulta, que se activa en el momento de la inferencia para atender las solicitudes de los usuarios. Cada paso de estos flujos —análisis sintáctico, fragmentación, incrustación, indexación, búsqueda vectorial, reordenación y generación basada en LLM— desempeña un papel distinto y conlleva sus propias ventajas e inconvenientes. Comprender estas piezas es esencial para diagnosticar errores, mejorar la calidad y diseñar arquitecturas RAG escalables que se comporten de manera predecible en entornos de producción.
A medida que ...
Become an O’Reilly member and get unlimited access to this title plus top books and audiobooks from O’Reilly and nearly 200 top publishers, thousands of courses curated by job role, 150+ live events each month,
and much more.
Read now
Unlock full access