book

RAG práctico para producción (Spanish Edition)

Name: RAG práctico para producción (Spanish Edition)
ISBN: 0642572397616

by Ofer Mendelevitch, Forrest Sheng Bao

May 2026

Intermediate

358 pages

11h 30m

Spanish

O'Reilly Media, Inc.

Read now

Unlock full access

Prólogo de Sharon Zhou
Prólogo de Jim Dowling
Prefacio
De qué trata este libroA quién va dirigido este libroA quién no va dirigido este libroUso de ejemplos de códigoRequisitos previosCómo navegar por este libroConvenciones utilizadas en este libroO’Reilly Online LearningCómo contactarnosAgradecimientos
1. Introducción a la generación aumentada por recuperación (RAG)
¿Cómo funciona RAG?El plano de una pila RAGEl flujo de ingestiónEl flujo de consultasEjemplo: RAG con LangChainRAG frente a otros enfoquesRAG frente a «Chat with PDF»RAG frente al ajuste finoBeneficios clave de RAGRAG es escalable y eficienteRAG ayuda a reducir las alucinacionesRAG permite la explicabilidadAdición y eliminación casi instantánea de conocimientoControles de acceso y seguridadCasos de uso de RAGAsistentes virtuales y chatbots con IAGestión del conocimiento empresarial y búsqueda internaCreación automatizada de contenido y resumen de documentosGeneración de anuncios personalizados atractivos y eficacesSistemas de preguntas y respuestasAplicaciones médicas y de saludInvestigación jurídica y de cumplimiento normativoRAG avanzadoRAG de agentesRAG multimodalRAG con grafos de conocimientoConclusión
2. La pila RAG básica
Flujos de la pila RAGEl flujo de ingestaEl flujo de consultasAnálisis de documentosExtracción de texto de diversos formatos de archivo Análisis de documentos con modelos de visión-lenguajeEjemplo de código: análisis de archivosDivisión de texto en fragmentosEstrategias de fragmentaciónEjemplo de código: fragmentación en PythonModelos de incrustación¿Qué es una incrustación?Criterios de selección para modelos de incrustaciónConsejos prácticos y consideracionesEjemplo de código: Generación de incrustaciones con transformadores de oracionesBases de datos vectoriales y búsqueda vectorialComprender la búsqueda de similitud basada en vectoresAlgoritmos de vecino más cercano aproximadoBases de datos vectorialesParámetros a tener en cuenta al usar la búsqueda vectorialEjemplo de código: Almacenamiento y recuperación de vectores con pgvectorLLMs generativosLLMsIngeniería de prompts para RAGEvaluación de LLMs y plantillas de promptsEjemplo de código: Uso de Anthropic Claude para generar respuestas en RAGConclusión
3. Escalar tu pila RAG
RAG a gran escalaVolumen y complejidad de los documentosActualización del índiceGestión y optimización de costosIngesta avanzada de datosManejo de un gran volumen de documentosManejo de datos de calidad inconsistenteManejo de documentos grandesEjemplo: Dividir un archivo PDF grandeGestión de actualizaciones y refresco de documentosRecuperación avanzadaEl proceso de recuperación en dos etapasBúsqueda híbridaReordenaciónImplementación de medidas de seguridadMedidas de seguridad para la IAPrevención de ataques de inyección de comandosControl de las alucinaciones en RAGDefinición de las alucinaciones en RAGAlucinaciones de LLM frente a alucinaciones de RAGDetección de alucinacionesCorrección de alucinacionesCreación de una excelente experiencia de usuario con RAGConsideraciones sobre la experiencia del usuario de RAGInterfaces de usuario multimodalesHerramientas e implementaciones de referenciaConclusión
4. Implementación de RAG en producción
Desafíos con RAG en producciónCalidad de la respuesta y reducción de las alucinacionesAlta latenciaSeguridad y privacidad de los datosCaos de proveedores y problemas de integraciónEquipo y experienciaCosto total de propiedadEvaluación RAGUna arquitectura de producción de referenciaTransición exitosa de la prueba de concepto a la producciónResume lo que aprendiste en la prueba de conceptoDefine los objetivos y requisitosGarantizar el éxito continuo de RAGConclusión
5. La plataforma RAG
RAG «hazlo tú mismo» frente a RAG en plataformaCapacidades principales de RAGFuentes de datosExpansión de RAG y gobernanza centralizadaCosto y mantenimientoOpciones de implementaciónEjemplo de plataforma RAG: VectaraCómo empezarIngesta de datos en VectaraEjecución de consultasCorrección de alucinacionesOtros puntos finales de la API de administración de RAGConclusión
6. Evaluación de tu aplicación RAG
¿Cómo falla RAG?Errores de recuperaciónFallos de generaciónFallos por ingesta de datos inadecuadaResumen de fallos de RAGUso de LLMs para la evaluación: LLM como juez¿Qué es LLM-as-a-Judge?Cómo funciona LLM-as-a-JudgeMétricas de evaluación de RAGMétricas de recuperaciónMétricas de generaciónSesgo y seguridadOfertas de evaluación de RAGEvaluación abierta de RAGEvaluación de la generación aumentada por recuperaciónDeepEvalAmazon BedrockComentarios de los usuariosIntegración de la evaluación de RAG en producciónUso de LLM-as-a-Judge en producciónEvaluación de RAG sin conexiónEvaluación de RAG en líneaMétricas del sistema: latencia y tiempo de actividadLatencia y rendimientoFiabilidad y tiempo de actividadCosto y eficiencia de recursosConclusión
7. De RAG a los agentes de IA
¿Qué es un agente de IA?La pila de agentesSistemas de un solo agente frente a sistemas multiagenteCasos de uso de agentesAgentes en el servicio al clienteAgentes en los servicios financierosIA de agentes en la atención médicaAgentes de programación de IAEl ciclo de AgenticLlamadas a herramientasProtocolo de contexto de modelosArquitectura del Protocolo de Contexto de ModelosMCP en la IA agencial empresarialComunicación entre agentesPráctica con marcos de IA de AgenticChatbots de IA con LangChainAgente de generación de documentos con LlamaIndexCreación de un agente con VectaraCreación de un sistema multiagente con CrewAIMemoria de AgenticMemoria a corto plazo frente a memoria a largo plazoMemoria de implementación con RAG agencialBarandillas empresariales: privacidad e integridadEvaluación y observabilidad con agentes de IAObservabilidad de AgenticRastrear un agenteMétricas de observabilidad de agentesHerramientas para la observabilidad de agentesConclusión

8. RAG multimodal
Documentos con tablas incrustadas¿Por qué son importantes las tablas incrustadas?Extracción de tablas de documentos¿Por qué el fragmentado ingenuo falla con las tablas?Procesamiento de tablas para RAGCómo lidiar con tablas de varias páginasDocumentos con imágenes incrustadasEl enfoque de resumen de imágenesRecuperación multimodal con un espacio de incrustación compartidoAudio y video en RAGLa línea de base: transcripción de alta fidelidadSemántica visual: el problema del «botón rojo»Consideraciones de producciónEconomía computacional y latenciaAlineación de modalidadesLa capa de interfaz: citas visualesSeguridad, privacidad y gobernanzaObservabilidad profunda, rastreo y seguridad a gran escalaAlucinaciones y evaluación en RAG multimodalDetección de alucinaciones multimodalesEvaluación de la recuperación y generación multimodalConclusión
9. RAG mejorado con conocimiento
Gráficos de conocimiento: una visión general¿Cómo se busca en un grafo de conocimiento?Ontologías frente a esquemasUso de grafos de conocimiento en RAGCreación de un grafo de conocimiento para películasUso del grafo de conocimiento en el momento de la consultaElegir entre el enriquecimiento y la recuperación híbridaCreación de grafos de conocimientoAutomatización de la construcción de grafos de conocimientoAprovechamiento de ontologías estándar y grafos de conocimientoGraphRAGLa infraestructura de la base de datos de grafosPatrones de actualización y evolución de los grafosLa relación entre precisión y costoConclusión
10. El futuro de RAG
La evolución de la recuperaciónEl cambio hacia el RAG agencialLa realidad de la gravedad de datos y la recuperación federadaEl impacto de un contexto más amplioDe la ingeniería de prompts a la ingeniería de contextoEl cambio de un RAG reactivo a uno proactivoRAG en el perímetro: modelos de lenguaje pequeñosGobernanza y cumplimiento a gran escalaConclusión: la base de conocimiento viva
Índice
Acerca de los autores

Content preview from RAG práctico para producción (Spanish Edition)

Capítulo 2. La pila RAG básica

Este trabajo se ha traducido utilizando IA. Agradecemos tus opiniones y comentarios: translation-feedback@oreilly.com

En el Capítulo 1, presentamos la idea central de la generación aumentada por recuperación: permitir que los grandes modelos de lenguaje accedan a conocimiento externo en lugar de depender únicamente de lo que aprendieron durante el entrenamiento. En este capítulo, nos adentramos más en los componentes técnicos que permiten que un sistema RAG funcione en la práctica. Estos componentes forman un flujo de trabajo por donde circulan los datos —a menudo llamado la pila RAG— que abarca desde la preparación de documentos sin procesar hasta la generación de respuestas de alta calidad y basadas en el contexto.

Empezamos por examinar los dos flujos principales que definen todo sistema RAG: el flujo de ingestión, que transforma y almacena datos para proporcionar a un LLM conocimientos desconocidos en el futuro, y el flujo de consulta, que se activa en el momento de la inferencia para atender las solicitudes de los usuarios. Cada paso de estos flujos —análisis sintáctico, fragmentación, incrustación, indexación, búsqueda vectorial, reordenación y generación basada en LLM— desempeña un papel distinto y conlleva sus propias ventajas e inconvenientes. Comprender estas piezas es esencial para diagnosticar errores, mejorar la calidad y diseñar arquitecturas RAG escalables que se comporten de manera predecible en entornos de producción.

A medida que ...

Become an O’Reilly member and get unlimited access to this title plus top books and audiobooks from O’Reilly and nearly 200 top publishers, thousands of courses curated by job role, 150+ live events each month,
and much more.

Read now

Unlock full access

More than 5,000 organizations count on O’Reilly

O’Reilly covers everything we've got, with content to help us build a world-class technology community, upgrade the capabilities and competencies of our teams, and improve overall team performance as well as their engagement.

Julian F.

Head of Cybersecurity

I wanted to learn C and C++, but it didn't click for me until I picked up an O'Reilly book. When I went on the O’Reilly platform, I was astonished to find all the books there, plus live events and sandboxes so you could play around with the technology.

Addison B.

Field Engineer

I’ve been on the O’Reilly platform for more than eight years. I use a couple of learning platforms, but I'm on O'Reilly more than anybody else. When you're there, you start learning. I'm never disappointed.

Amir M.

Data Platform Tech Lead

I'm always learning. So when I got on to O'Reilly, I was like a kid in a candy store. There are playlists. There are answers. There's on-demand training. It's worth its weight in gold, in terms of what it allows me to do.

Mark W.

Embedded Software Engineer

Highlights from the Keynotes of Artificial Intelligence Conference, London 2019

Publisher Resources

ISBN: 0642572397616

Cloud Computing

Data Engineering

Data Science

AI & ML

Programming Languages

Software Architecture

IT/Ops

Security

Design

Business

Soft Skills

RAG práctico para producción (Spanish Edition)

by Ofer Mendelevitch, Forrest Sheng Bao

Capítulo 2. La pila RAG básica

Become an O’Reilly member and get unlimited access to this title plus top books and audiobooks from O’Reilly and nearly 200 top publishers, thousands of courses curated by job role, 150+ live events each month,
and much more.