book

IA generativa no Kubernetes (Portuguese Edition)

Name: IA generativa no Kubernetes (Portuguese Edition)
ISBN: 0642572344665

by Roland Huß, Daniele Zonca

February 2026

Intermediate to advanced

406 pages

13h 8m

Portuguese (Portugal, Brazil)

O'Reilly Media, Inc.

Read now

Unlock full access

Prefácio
Por que escrevemos este livroKubernetesIA generativaComo este livro está estruturadoPara quem é este livroO que você vai aprenderConvenções usadas neste livroAprendizagem online da O’ReillyComo entrar em contato conoscoAgradecimentos
Introdução
Desafios da execução de IA generativa em escalaKubernetes para cargas de trabalho de IAEntendendo os fundamentos do LLMComo os LLMs processam textoTokenização e incorporaçõesAs duas fases da inferênciaVisão geralInferênciaPreparação para produçãoAjusteAplicativos baseados em IA
I. Inferência
1. Implantação de modelos
“Funciona na minha máquina”Servidor de modelosvLLMHugging Face Geração de texto InferênciaOutros servidores de modelosImplantando modelos no Kubernetes manualmenteControlador do servidor modeloKServeRay Serve e KubeRayLições aprendidas
2. Dados do modelo
Formatos de armazenamento de dados do modeloFormatos somente pesoFormatos independentesONNXSafetensorsGGUF e GGMLSituação atual e lacunasRegistro de modelosHugging Face Model HubRegistro de modelos MLflowRegistro de modelos KubeflowRegistro OCIAcessando dados de modelos no KubernetesArmazenamento compartilhado com PersistentVolumesImagem OCI para armazenamento de dados do modeloModelcarsMontagens de volume de imagem OCILições aprendidas
II. Prontidão para produção
3. Kubernetes e GPUs
Descoberta de GPUDescoberta de recursos do nóDescoberta de recursos da GPUPlug-ins de dispositivo GPU do KubernetesAgendamento de carga de trabalho da GPUAgendamento baseado em rótulosAgendamento baseado em recursosAlocação dinâmica de recursosOperador de GPU NVIDIAConfiguração do operador com ClusterPolicyAlocação de sub-GPUInferência com várias GPUsParalelismo de dadosParalelismo de modelosInferência em nó único versus inferência em vários nósOtimizações de recursos da GPULições aprendidas
4. Execução em produção
Ajuste de modelo e tempo de execuçãoAvaliação do modelo de linguagemCompressão do modelo de linguagemBenchmark de desempenho do modeloAjuste dos parâmetros de tempo de execução do vLLMAutoescalaOtimizar o tempo de startup do vLLMRoteamento compatível com LLMDo API Gateway para o AI GatewayExtensão de inferência da API do gatewayServiço desagregadoLições aprendidas
5. Observabilidade do modelo
Pilha de observabilidade e configuraçãoRegistrosMétricasRastreamentoMétricas do servidor de modelosTempo até o primeiro tokenTempo por token de saída ou latência entre tokensRendimentoLatênciaMétricas da fila de solicitaçõesMonitoramento do uso da GPUMétricas de qualidadeIA responsávelExplicabilidadeEquidadeSegurança do modelo: alucinação e proteçõesEntendendo e detectando alucinaçõesProteções de tempo de execuçãoLições aprendidas
III. Ajuste

6. Personalização do modelo
Introdução à criação de LLMEngenharia de prompts e contextoQuando usar a personalização do modeloAjustando um modeloAjuste finoAjuste fino eficiente em termos de parâmetrosAdaptação de baixa classificaçãoExecutando tarefas de ajuste no KubernetesKubeflow TrainerOutras estruturasLições aprendidas
7. Otimização do agendamento de tarefas
Otimização do agendador do KubernetesAgendador principal do KubernetesEstratégia de empacotamento de recursosAgendamento dinâmico com DeschedulerAgendamento em grupoPyTorch Rendezvous e agendamento em grupoComparando soluções de agendamento em grupoAgendamento com reconhecimento de topologiaComparando soluções de agendamento com reconhecimento de topologiaGerenciamento de cotas e multilocação: GPU como serviçoComparando soluções de gerenciamento de cotas e multilocaçãoOtimização de rede para treinamento distribuídoComparando tecnologias de rede para comunicação de GPUUsando interfaces de rede secundárias no KubernetesConectando HPC e Kubernetes: Slurm e SlinkyArmazenamento para treinamentoSegurança de tarefas de treinamentoDiretrizes de segurança para RayDiretrizes de segurança para PyTorchObservabilidade das tarefas de treinamentoColeta de métricas para treinamento distribuídoRegistro em trabalhadores distribuídosRastreamento de operações de treinamento distribuídoLições aprendidas
IV. Aplicativos baseados em IA
8. Aplicativos baseados em IA
Padrões arquitetônicosTipos de carga de trabalho do KubernetesAplicativos de bate-papoServiços de IA de back-endGeração aumentada por recuperaçãoComponentes RAGIngestão de documentosProcessamento de consultas do usuárioRAG no KubernetesFluxos de trabalho agenticosEstruturas e tempos de execução de agentesAPI de respostas da OpenAIAgentes no KubernetesSistemas multiagentesAgentes ambientaisLições aprendidas
9. Executando aplicativos agenticos em produção
O Protocolo de Contexto do ModeloSegurança MCPFalsificação de identidade de agente (passagem de token)Delegação de conta de serviçoIdentidade delegada por meio da troca de token OAuth2TLS mútuo com SPIFFE/SPIRE (confiança zero)Protocolo agente-para-agenteA2A complementa MCPA2A em poucas palavrasExecutando A2A no KubernetesGerenciamento do estado do agentePadrões de armazenamento de estadoEscolhendo entre armazenamentos de chave-valor e bancos de dadosVerificação de pontos de controle para agentes de longa duraçãoLições aprendidas
Posfácio
O que abordamosConsiderações finais
Índice
Sobre os autores

Content preview from IA generativa no Kubernetes (Portuguese Edition)

Parte IV. Aplicativosbaseados em IA

Depois de falar sobre como rodar LLMs para inferência e ajuste em Kubernetes, agora vamos passar de servir modelos únicos para construir aplicativos completos baseados em IA. Os serviços LLM raramente funcionam sozinhos: eles geralmente são integrados em sistemas maiores que organizam fluxos entre interfaces conversacionais, bancos de dados vetoriais para recuperação de contexto e serviços de modelo para geração.

Esta parte começa com padrões arquitetônicos para aplicativos baseados em IA, de interfaces de bate-papo a back-ends orientados a eventos, e apresenta a geração aumentada por recuperação (RAG) para fundamentar os resultados do modelo em conhecimento externo e fluxos de trabalho agênicos, nos quais as LLMs coordenam a invocação de ferramentas e o raciocínio em várias etapas. Passando da arquitetura para as operações, abordamos os desafios de produção exclusivos dos sistemas de agentes: segurança, gerenciamento de estado, observabilidade, controle de custos e confiabilidade, juntamente com protocolos como o Model Context Protocol (MCP) e o Agent-to-Agent (A2A), que padronizam a comunicação entre ferramentas e agentes.

Em detalhes, os capítulos desta parte cobrem os seguintes aspectos:

O Capítulo 8, “Aplicativos orientados por IA”, aborda padrões arquitetônicos para aplicativos de IA, incluindo chat, orientados a eventos e cargas de trabalho em lote, e depois explora RAG e fluxos de trabalho de agentes.
O Capítulo 9, “Executando ...

Become an O’Reilly member and get unlimited access to this title plus top books and audiobooks from O’Reilly and nearly 200 top publishers, thousands of courses curated by job role, 150+ live events each month,
and much more.

Read now

Unlock full access

More than 5,000 organizations count on O’Reilly

O’Reilly covers everything we've got, with content to help us build a world-class technology community, upgrade the capabilities and competencies of our teams, and improve overall team performance as well as their engagement.

Julian F.

Head of Cybersecurity

I wanted to learn C and C++, but it didn't click for me until I picked up an O'Reilly book. When I went on the O’Reilly platform, I was astonished to find all the books there, plus live events and sandboxes so you could play around with the technology.

Addison B.

Field Engineer

I’ve been on the O’Reilly platform for more than eight years. I use a couple of learning platforms, but I'm on O'Reilly more than anybody else. When you're there, you start learning. I'm never disappointed.

Amir M.

Data Platform Tech Lead

I'm always learning. So when I got on to O'Reilly, I was like a kid in a candy store. There are playlists. There are answers. There's on-demand training. It's worth its weight in gold, in terms of what it allows me to do.

Mark W.

Embedded Software Engineer

Publisher Resources

ISBN: 0642572344665

Cloud Computing

Data Engineering

Data Science

AI & ML

Programming Languages

Software Architecture

IT/Ops

Security

Design

Business

Soft Skills

IA generativa no Kubernetes (Portuguese Edition)

by Roland Huß, Daniele Zonca

Parte IV. Aplicativosbaseados em IA

Become an O’Reilly member and get unlimited access to this title plus top books and audiobooks from O’Reilly and nearly 200 top publishers, thousands of courses curated by job role, 150+ live events each month,
and much more.