book

IA generativa no Kubernetes (Portuguese Edition)

Name: IA generativa no Kubernetes (Portuguese Edition)
ISBN: 0642572344665

by Roland Huß, Daniele Zonca

February 2026

Intermediate to advanced

406 pages

13h 8m

Portuguese (Portugal, Brazil)

O'Reilly Media, Inc.

Read now

Unlock full access

Prefácio
Por que escrevemos este livroKubernetesIA generativaComo este livro está estruturadoPara quem é este livroO que você vai aprenderConvenções usadas neste livroAprendizagem online da O’ReillyComo entrar em contato conoscoAgradecimentos
Introdução
Desafios da execução de IA generativa em escalaKubernetes para cargas de trabalho de IAEntendendo os fundamentos do LLMComo os LLMs processam textoTokenização e incorporaçõesAs duas fases da inferênciaVisão geralInferênciaPreparação para produçãoAjusteAplicativos baseados em IA
I. Inferência
1. Implantação de modelos
“Funciona na minha máquina”Servidor de modelosvLLMHugging Face Geração de texto InferênciaOutros servidores de modelosImplantando modelos no Kubernetes manualmenteControlador do servidor modeloKServeRay Serve e KubeRayLições aprendidas
2. Dados do modelo
Formatos de armazenamento de dados do modeloFormatos somente pesoFormatos independentesONNXSafetensorsGGUF e GGMLSituação atual e lacunasRegistro de modelosHugging Face Model HubRegistro de modelos MLflowRegistro de modelos KubeflowRegistro OCIAcessando dados de modelos no KubernetesArmazenamento compartilhado com PersistentVolumesImagem OCI para armazenamento de dados do modeloModelcarsMontagens de volume de imagem OCILições aprendidas
II. Prontidão para produção
3. Kubernetes e GPUs
Descoberta de GPUDescoberta de recursos do nóDescoberta de recursos da GPUPlug-ins de dispositivo GPU do KubernetesAgendamento de carga de trabalho da GPUAgendamento baseado em rótulosAgendamento baseado em recursosAlocação dinâmica de recursosOperador de GPU NVIDIAConfiguração do operador com ClusterPolicyAlocação de sub-GPUInferência com várias GPUsParalelismo de dadosParalelismo de modelosInferência em nó único versus inferência em vários nósOtimizações de recursos da GPULições aprendidas
4. Execução em produção
Ajuste de modelo e tempo de execuçãoAvaliação do modelo de linguagemCompressão do modelo de linguagemBenchmark de desempenho do modeloAjuste dos parâmetros de tempo de execução do vLLMAutoescalaOtimizar o tempo de startup do vLLMRoteamento compatível com LLMDo API Gateway para o AI GatewayExtensão de inferência da API do gatewayServiço desagregadoLições aprendidas
5. Observabilidade do modelo
Pilha de observabilidade e configuraçãoRegistrosMétricasRastreamentoMétricas do servidor de modelosTempo até o primeiro tokenTempo por token de saída ou latência entre tokensRendimentoLatênciaMétricas da fila de solicitaçõesMonitoramento do uso da GPUMétricas de qualidadeIA responsávelExplicabilidadeEquidadeSegurança do modelo: alucinação e proteçõesEntendendo e detectando alucinaçõesProteções de tempo de execuçãoLições aprendidas
III. Ajuste

6. Personalização do modelo
Introdução à criação de LLMEngenharia de prompts e contextoQuando usar a personalização do modeloAjustando um modeloAjuste finoAjuste fino eficiente em termos de parâmetrosAdaptação de baixa classificaçãoExecutando tarefas de ajuste no KubernetesKubeflow TrainerOutras estruturasLições aprendidas
7. Otimização do agendamento de tarefas
Otimização do agendador do KubernetesAgendador principal do KubernetesEstratégia de empacotamento de recursosAgendamento dinâmico com DeschedulerAgendamento em grupoPyTorch Rendezvous e agendamento em grupoComparando soluções de agendamento em grupoAgendamento com reconhecimento de topologiaComparando soluções de agendamento com reconhecimento de topologiaGerenciamento de cotas e multilocação: GPU como serviçoComparando soluções de gerenciamento de cotas e multilocaçãoOtimização de rede para treinamento distribuídoComparando tecnologias de rede para comunicação de GPUUsando interfaces de rede secundárias no KubernetesConectando HPC e Kubernetes: Slurm e SlinkyArmazenamento para treinamentoSegurança de tarefas de treinamentoDiretrizes de segurança para RayDiretrizes de segurança para PyTorchObservabilidade das tarefas de treinamentoColeta de métricas para treinamento distribuídoRegistro em trabalhadores distribuídosRastreamento de operações de treinamento distribuídoLições aprendidas
IV. Aplicativos baseados em IA
8. Aplicativos baseados em IA
Padrões arquitetônicosTipos de carga de trabalho do KubernetesAplicativos de bate-papoServiços de IA de back-endGeração aumentada por recuperaçãoComponentes RAGIngestão de documentosProcessamento de consultas do usuárioRAG no KubernetesFluxos de trabalho agenticosEstruturas e tempos de execução de agentesAPI de respostas da OpenAIAgentes no KubernetesSistemas multiagentesAgentes ambientaisLições aprendidas
9. Executando aplicativos agenticos em produção
O Protocolo de Contexto do ModeloSegurança MCPFalsificação de identidade de agente (passagem de token)Delegação de conta de serviçoIdentidade delegada por meio da troca de token OAuth2TLS mútuo com SPIFFE/SPIRE (confiança zero)Protocolo agente-para-agenteA2A complementa MCPA2A em poucas palavrasExecutando A2A no KubernetesGerenciamento do estado do agentePadrões de armazenamento de estadoEscolhendo entre armazenamentos de chave-valor e bancos de dadosVerificação de pontos de controle para agentes de longa duraçãoLições aprendidas
Posfácio
O que abordamosConsiderações finais
Índice
Sobre os autores

Content preview from IA generativa no Kubernetes (Portuguese Edition)

Capítulo 2. Dadosdo modelo

Este trabalho foi traduzido com recurso a IA. Agradecemos o teu feedback e comentários: translation-feedback@oreilly.com

Um dos desafios mais importantes ao executar LLMs no Kubernetes é gerenciar o tamanho dos dados do modelo. Os LLMs podem ter de alguns gigabytes a quase um terabyte, e trazer esses dados de forma eficiente para um cluster onde os runtimes possam acessá-los requer uma análise cuidadosa.

A parte principal desses modelos consiste principalmente nos parâmetros do modelo e pode ser extremamente grande. A Tabela 2-1 lista o número de parâmetros e o tamanho de alguns dos modelos disponíveis mais proeminentes que você mesmo pode executar. Existem muitos outros, mas a partir dessa seleção você já pode ver uma ampla gama de variações. Elas variam de modelos grandes, que provavelmente são impraticáveis para uso sob demanda, a modelos mais leves, que podem ser executados em seu próprio cluster e facilmente baixados quando necessário.

Tabela 2-1. Modelos de códigoaberto e seus tamanhos
Nome	Fornecedor	Parâmetros	Tamanho
Llama 4 Maverick	Meta	400 bilhões (MoE, 17 bilhões ativos)	~800 GB
DeepSeek-V3	DeepSeek	671 bilhões (MoE, 37 bilhões ativos)	~700 GB
Llama 3.1 405 bilhões	Meta	405 bilhões	~750 GB
Qwen3-235B	Alibaba	235 bilhões (MoE, 22 bilhões ativos)	~118 GB
Mixtral 8x22 bilhões	Mistral	141 bilhões (MoE, 39 bilhões ativos)	~88 GB
GPT-OSS 120B	OpenAI	117 bilhões (MoE, 5 bilhões ativos)	~70 GB
Gemma 2 27B	Google	27 bilhões

Become an O’Reilly member and get unlimited access to this title plus top books and audiobooks from O’Reilly and nearly 200 top publishers, thousands of courses curated by job role, 150+ live events each month,
and much more.

Read now

Unlock full access

More than 5,000 organizations count on O’Reilly

O’Reilly covers everything we've got, with content to help us build a world-class technology community, upgrade the capabilities and competencies of our teams, and improve overall team performance as well as their engagement.

Julian F.

Head of Cybersecurity

I wanted to learn C and C++, but it didn't click for me until I picked up an O'Reilly book. When I went on the O’Reilly platform, I was astonished to find all the books there, plus live events and sandboxes so you could play around with the technology.

Addison B.

Field Engineer

I’ve been on the O’Reilly platform for more than eight years. I use a couple of learning platforms, but I'm on O'Reilly more than anybody else. When you're there, you start learning. I'm never disappointed.

Amir M.

Data Platform Tech Lead

I'm always learning. So when I got on to O'Reilly, I was like a kid in a candy store. There are playlists. There are answers. There's on-demand training. It's worth its weight in gold, in terms of what it allows me to do.

Mark W.

Embedded Software Engineer

Publisher Resources

ISBN: 0642572344665

Cloud Computing

Data Engineering

Data Science

AI & ML

Programming Languages

Software Architecture

IT/Ops

Security

Design

Business

Soft Skills

IA generativa no Kubernetes (Portuguese Edition)

by Roland Huß, Daniele Zonca

Capítulo 2. Dadosdo modelo

Become an O’Reilly member and get unlimited access to this title plus top books and audiobooks from O’Reilly and nearly 200 top publishers, thousands of courses curated by job role, 150+ live events each month,
and much more.