Parte IV. Aplicativosbaseados em IA
Depois de falar sobre como rodar LLMs para inferência e ajuste em Kubernetes, agora vamos passar de servir modelos únicos para construir aplicativos completos baseados em IA. Os serviços LLM raramente funcionam sozinhos: eles geralmente são integrados em sistemas maiores que organizam fluxos entre interfaces conversacionais, bancos de dados vetoriais para recuperação de contexto e serviços de modelo para geração.
Esta parte começa com padrões arquitetônicos para aplicativos baseados em IA, de interfaces de bate-papo a back-ends orientados a eventos, e apresenta a geração aumentada por recuperação (RAG) para fundamentar os resultados do modelo em conhecimento externo e fluxos de trabalho agênicos, nos quais as LLMs coordenam a invocação de ferramentas e o raciocínio em várias etapas. Passando da arquitetura para as operações, abordamos os desafios de produção exclusivos dos sistemas de agentes: segurança, gerenciamento de estado, observabilidade, controle de custos e confiabilidade, juntamente com protocolos como o Model Context Protocol (MCP) e o Agent-to-Agent (A2A), que padronizam a comunicação entre ferramentas e agentes.
Em detalhes, os capítulos desta parte cobrem os seguintes aspectos:
-
O Capítulo 8, “Aplicativos orientados por IA”, aborda padrões arquitetônicos para aplicativos de IA, incluindo chat, orientados a eventos e cargas de trabalho em lote, e depois explora RAG e fluxos de trabalho de agentes.
Become an O’Reilly member and get unlimited access to this title plus top books and audiobooks from O’Reilly and nearly 200 top publishers, thousands of courses curated by job role, 150+ live events each month,
and much more.
Read now
Unlock full access