book

IA generativa no Kubernetes (Portuguese Edition)

Name: IA generativa no Kubernetes (Portuguese Edition)
ISBN: 0642572344665

by Roland Huß, Daniele Zonca

February 2026

Intermediate to advanced

406 pages

13h 8m

Portuguese (Portugal, Brazil)

O'Reilly Media, Inc.

Read now

Unlock full access

Prefácio
Por que escrevemos este livroKubernetesIA generativaComo este livro está estruturadoPara quem é este livroO que você vai aprenderConvenções usadas neste livroAprendizagem online da O’ReillyComo entrar em contato conoscoAgradecimentos
Introdução
Desafios da execução de IA generativa em escalaKubernetes para cargas de trabalho de IAEntendendo os fundamentos do LLMComo os LLMs processam textoTokenização e incorporaçõesAs duas fases da inferênciaVisão geralInferênciaPreparação para produçãoAjusteAplicativos baseados em IA
I. Inferência
1. Implantação de modelos
“Funciona na minha máquina”Servidor de modelosvLLMHugging Face Geração de texto InferênciaOutros servidores de modelosImplantando modelos no Kubernetes manualmenteControlador do servidor modeloKServeRay Serve e KubeRayLições aprendidas
2. Dados do modelo
Formatos de armazenamento de dados do modeloFormatos somente pesoFormatos independentesONNXSafetensorsGGUF e GGMLSituação atual e lacunasRegistro de modelosHugging Face Model HubRegistro de modelos MLflowRegistro de modelos KubeflowRegistro OCIAcessando dados de modelos no KubernetesArmazenamento compartilhado com PersistentVolumesImagem OCI para armazenamento de dados do modeloModelcarsMontagens de volume de imagem OCILições aprendidas
II. Prontidão para produção
3. Kubernetes e GPUs
Descoberta de GPUDescoberta de recursos do nóDescoberta de recursos da GPUPlug-ins de dispositivo GPU do KubernetesAgendamento de carga de trabalho da GPUAgendamento baseado em rótulosAgendamento baseado em recursosAlocação dinâmica de recursosOperador de GPU NVIDIAConfiguração do operador com ClusterPolicyAlocação de sub-GPUInferência com várias GPUsParalelismo de dadosParalelismo de modelosInferência em nó único versus inferência em vários nósOtimizações de recursos da GPULições aprendidas
4. Execução em produção
Ajuste de modelo e tempo de execuçãoAvaliação do modelo de linguagemCompressão do modelo de linguagemBenchmark de desempenho do modeloAjuste dos parâmetros de tempo de execução do vLLMAutoescalaOtimizar o tempo de startup do vLLMRoteamento compatível com LLMDo API Gateway para o AI GatewayExtensão de inferência da API do gatewayServiço desagregadoLições aprendidas
5. Observabilidade do modelo
Pilha de observabilidade e configuraçãoRegistrosMétricasRastreamentoMétricas do servidor de modelosTempo até o primeiro tokenTempo por token de saída ou latência entre tokensRendimentoLatênciaMétricas da fila de solicitaçõesMonitoramento do uso da GPUMétricas de qualidadeIA responsávelExplicabilidadeEquidadeSegurança do modelo: alucinação e proteçõesEntendendo e detectando alucinaçõesProteções de tempo de execuçãoLições aprendidas
III. Ajuste

6. Personalização do modelo
Introdução à criação de LLMEngenharia de prompts e contextoQuando usar a personalização do modeloAjustando um modeloAjuste finoAjuste fino eficiente em termos de parâmetrosAdaptação de baixa classificaçãoExecutando tarefas de ajuste no KubernetesKubeflow TrainerOutras estruturasLições aprendidas
7. Otimização do agendamento de tarefas
Otimização do agendador do KubernetesAgendador principal do KubernetesEstratégia de empacotamento de recursosAgendamento dinâmico com DeschedulerAgendamento em grupoPyTorch Rendezvous e agendamento em grupoComparando soluções de agendamento em grupoAgendamento com reconhecimento de topologiaComparando soluções de agendamento com reconhecimento de topologiaGerenciamento de cotas e multilocação: GPU como serviçoComparando soluções de gerenciamento de cotas e multilocaçãoOtimização de rede para treinamento distribuídoComparando tecnologias de rede para comunicação de GPUUsando interfaces de rede secundárias no KubernetesConectando HPC e Kubernetes: Slurm e SlinkyArmazenamento para treinamentoSegurança de tarefas de treinamentoDiretrizes de segurança para RayDiretrizes de segurança para PyTorchObservabilidade das tarefas de treinamentoColeta de métricas para treinamento distribuídoRegistro em trabalhadores distribuídosRastreamento de operações de treinamento distribuídoLições aprendidas
IV. Aplicativos baseados em IA
8. Aplicativos baseados em IA
Padrões arquitetônicosTipos de carga de trabalho do KubernetesAplicativos de bate-papoServiços de IA de back-endGeração aumentada por recuperaçãoComponentes RAGIngestão de documentosProcessamento de consultas do usuárioRAG no KubernetesFluxos de trabalho agenticosEstruturas e tempos de execução de agentesAPI de respostas da OpenAIAgentes no KubernetesSistemas multiagentesAgentes ambientaisLições aprendidas
9. Executando aplicativos agenticos em produção
O Protocolo de Contexto do ModeloSegurança MCPFalsificação de identidade de agente (passagem de token)Delegação de conta de serviçoIdentidade delegada por meio da troca de token OAuth2TLS mútuo com SPIFFE/SPIRE (confiança zero)Protocolo agente-para-agenteA2A complementa MCPA2A em poucas palavrasExecutando A2A no KubernetesGerenciamento do estado do agentePadrões de armazenamento de estadoEscolhendo entre armazenamentos de chave-valor e bancos de dadosVerificação de pontos de controle para agentes de longa duraçãoLições aprendidas
Posfácio
O que abordamosConsiderações finais
Índice
Sobre os autores

Content preview from IA generativa no Kubernetes (Portuguese Edition)

Introdução

O lançamento do ChatGPT em 2022 foi um momento decisivo para o mundo da TI. Da noite para o dia, parecia que tudo havia mudado, não por causa de conceitos totalmente novos, mas devido ao crescimento exponencial dos parâmetros do modelo e à expansão maciça dos conjuntos de dados de treinamento. Os parâmetros do modelo — os pesos e vieses que o aprendeu duranteo treinamento — são frequentemente usados para medir a complexidade e a capacidade de um modelo. Mas as inovações arquitetônicas e a qualidade do treinamento são igualmente importantes para o desempenho real de um modelo. Essa combinação de parâmetros de escala e expansão de dados levou a IA a um novo território, com capacidades antes inimagináveis.

No mundo da física, as transições de fase descrevem momentos em que pequenas mudanças graduais levam repentinamente a mudanças dramáticas no comportamento — como a água se transformando em gelo. O surgimento de grandes modelos de linguagem (LLMs) segue esse mesmo padrão. Desde que a arquitetura Transformer foi introduzida em 2017, a IA vinha evoluindo constantemente, mas o salto no tamanho do modelo, no poder de computação e na escala dos dados de treinamento a levou além de um ponto de inflexão. Esses modelos começaram a exibir geração e processamento de texto semelhantes aos humanos, revolucionando setores inteiros e redefinindo nossas expectativas sobre o que a IA pode fazer. O gráfico na Figura I-1 mostra o crescimento desses parâmetros e as fontes de dados em expansão ...

Become an O’Reilly member and get unlimited access to this title plus top books and audiobooks from O’Reilly and nearly 200 top publishers, thousands of courses curated by job role, 150+ live events each month,
and much more.

Read now

Unlock full access

More than 5,000 organizations count on O’Reilly

O’Reilly covers everything we've got, with content to help us build a world-class technology community, upgrade the capabilities and competencies of our teams, and improve overall team performance as well as their engagement.

Julian F.

Head of Cybersecurity

I wanted to learn C and C++, but it didn't click for me until I picked up an O'Reilly book. When I went on the O’Reilly platform, I was astonished to find all the books there, plus live events and sandboxes so you could play around with the technology.

Addison B.

Field Engineer

I’ve been on the O’Reilly platform for more than eight years. I use a couple of learning platforms, but I'm on O'Reilly more than anybody else. When you're there, you start learning. I'm never disappointed.

Amir M.

Data Platform Tech Lead

I'm always learning. So when I got on to O'Reilly, I was like a kid in a candy store. There are playlists. There are answers. There's on-demand training. It's worth its weight in gold, in terms of what it allows me to do.

Mark W.

Embedded Software Engineer

Publisher Resources

ISBN: 0642572344665

Cloud Computing

Data Engineering

Data Science

AI & ML

Programming Languages

Software Architecture

IT/Ops

Security

Design

Business

Soft Skills

IA generativa no Kubernetes (Portuguese Edition)

by Roland Huß, Daniele Zonca

Introdução

Become an O’Reilly member and get unlimited access to this title plus top books and audiobooks from O’Reilly and nearly 200 top publishers, thousands of courses curated by job role, 150+ live events each month,
and much more.