book

IA generativa no Kubernetes (Portuguese Edition)

Name: IA generativa no Kubernetes (Portuguese Edition)
ISBN: 0642572344665

by Roland Huß, Daniele Zonca

February 2026

Intermediate to advanced

406 pages

13h 8m

Portuguese (Portugal, Brazil)

O'Reilly Media, Inc.

Read now

Unlock full access

Prefácio
Por que escrevemos este livroKubernetesIA generativaComo este livro está estruturadoPara quem é este livroO que você vai aprenderConvenções usadas neste livroAprendizagem online da O’ReillyComo entrar em contato conoscoAgradecimentos
Introdução
Desafios da execução de IA generativa em escalaKubernetes para cargas de trabalho de IAEntendendo os fundamentos do LLMComo os LLMs processam textoTokenização e incorporaçõesAs duas fases da inferênciaVisão geralInferênciaPreparação para produçãoAjusteAplicativos baseados em IA
I. Inferência
1. Implantação de modelos
“Funciona na minha máquina”Servidor de modelosvLLMHugging Face Geração de texto InferênciaOutros servidores de modelosImplantando modelos no Kubernetes manualmenteControlador do servidor modeloKServeRay Serve e KubeRayLições aprendidas
2. Dados do modelo
Formatos de armazenamento de dados do modeloFormatos somente pesoFormatos independentesONNXSafetensorsGGUF e GGMLSituação atual e lacunasRegistro de modelosHugging Face Model HubRegistro de modelos MLflowRegistro de modelos KubeflowRegistro OCIAcessando dados de modelos no KubernetesArmazenamento compartilhado com PersistentVolumesImagem OCI para armazenamento de dados do modeloModelcarsMontagens de volume de imagem OCILições aprendidas
II. Prontidão para produção
3. Kubernetes e GPUs
Descoberta de GPUDescoberta de recursos do nóDescoberta de recursos da GPUPlug-ins de dispositivo GPU do KubernetesAgendamento de carga de trabalho da GPUAgendamento baseado em rótulosAgendamento baseado em recursosAlocação dinâmica de recursosOperador de GPU NVIDIAConfiguração do operador com ClusterPolicyAlocação de sub-GPUInferência com várias GPUsParalelismo de dadosParalelismo de modelosInferência em nó único versus inferência em vários nósOtimizações de recursos da GPULições aprendidas
4. Execução em produção
Ajuste de modelo e tempo de execuçãoAvaliação do modelo de linguagemCompressão do modelo de linguagemBenchmark de desempenho do modeloAjuste dos parâmetros de tempo de execução do vLLMAutoescalaOtimizar o tempo de startup do vLLMRoteamento compatível com LLMDo API Gateway para o AI GatewayExtensão de inferência da API do gatewayServiço desagregadoLições aprendidas
5. Observabilidade do modelo
Pilha de observabilidade e configuraçãoRegistrosMétricasRastreamentoMétricas do servidor de modelosTempo até o primeiro tokenTempo por token de saída ou latência entre tokensRendimentoLatênciaMétricas da fila de solicitaçõesMonitoramento do uso da GPUMétricas de qualidadeIA responsávelExplicabilidadeEquidadeSegurança do modelo: alucinação e proteçõesEntendendo e detectando alucinaçõesProteções de tempo de execuçãoLições aprendidas
III. Ajuste

6. Personalização do modelo
Introdução à criação de LLMEngenharia de prompts e contextoQuando usar a personalização do modeloAjustando um modeloAjuste finoAjuste fino eficiente em termos de parâmetrosAdaptação de baixa classificaçãoExecutando tarefas de ajuste no KubernetesKubeflow TrainerOutras estruturasLições aprendidas
7. Otimização do agendamento de tarefas
Otimização do agendador do KubernetesAgendador principal do KubernetesEstratégia de empacotamento de recursosAgendamento dinâmico com DeschedulerAgendamento em grupoPyTorch Rendezvous e agendamento em grupoComparando soluções de agendamento em grupoAgendamento com reconhecimento de topologiaComparando soluções de agendamento com reconhecimento de topologiaGerenciamento de cotas e multilocação: GPU como serviçoComparando soluções de gerenciamento de cotas e multilocaçãoOtimização de rede para treinamento distribuídoComparando tecnologias de rede para comunicação de GPUUsando interfaces de rede secundárias no KubernetesConectando HPC e Kubernetes: Slurm e SlinkyArmazenamento para treinamentoSegurança de tarefas de treinamentoDiretrizes de segurança para RayDiretrizes de segurança para PyTorchObservabilidade das tarefas de treinamentoColeta de métricas para treinamento distribuídoRegistro em trabalhadores distribuídosRastreamento de operações de treinamento distribuídoLições aprendidas
IV. Aplicativos baseados em IA
8. Aplicativos baseados em IA
Padrões arquitetônicosTipos de carga de trabalho do KubernetesAplicativos de bate-papoServiços de IA de back-endGeração aumentada por recuperaçãoComponentes RAGIngestão de documentosProcessamento de consultas do usuárioRAG no KubernetesFluxos de trabalho agenticosEstruturas e tempos de execução de agentesAPI de respostas da OpenAIAgentes no KubernetesSistemas multiagentesAgentes ambientaisLições aprendidas
9. Executando aplicativos agenticos em produção
O Protocolo de Contexto do ModeloSegurança MCPFalsificação de identidade de agente (passagem de token)Delegação de conta de serviçoIdentidade delegada por meio da troca de token OAuth2TLS mútuo com SPIFFE/SPIRE (confiança zero)Protocolo agente-para-agenteA2A complementa MCPA2A em poucas palavrasExecutando A2A no KubernetesGerenciamento do estado do agentePadrões de armazenamento de estadoEscolhendo entre armazenamentos de chave-valor e bancos de dadosVerificação de pontos de controle para agentes de longa duraçãoLições aprendidas
Posfácio
O que abordamosConsiderações finais
Índice
Sobre os autores

Content preview from IA generativa no Kubernetes (Portuguese Edition)

Parte I. Inferência

AParte I fala sobre os principais pontos a considerar durante a implantação e execução de um modelo de IA generativa. Isso é abordado primeiro porque, diferentemente dos modelos de IA preditiva, normalmente não se começa do zero criando um modelo básico totalmente novo.

A criação de um modelo básico é uma atividade que exige muitos recursos, tempo e dados, usando técnicas parecidas, mas em uma escala maior. Poucas empresas fazem isso, então não vamos falar sobre isso aqui.

Essa fase do ciclo de vida do modelo não é nova no espaço da IA; o serviço de modelos sempre foi um aspecto central desde o início da adoção da IA em contextos de produção. No entanto, o tamanho e a complexidade desses novos tipos de modelos trazem um conjunto significativo de novos desafios. Além de sua importância histórica, a infraestrutura de inferência ( ) se tornou o principal ponto de entrada para a adoção da IA moderna. Os engenheiros de IA geralmente começam integrando modelos pré-treinados em seus aplicativos existentes por meio de APIs de inferência, o que permite que eles incorporem recursos de IA ao software tradicional sem precisar de profundo conhecimento em Deep Learning. Além disso, a infraestrutura de inferência serve como camada fundamental para sistemas de IA agênciai, nos quais vários modelos e ferramentas devem trabalhar juntos de forma integrada para realizar tarefas complexas.

A IA generativa é um campo muito ativo, e este livro não pretende ser uma lista abrangente ...

Become an O’Reilly member and get unlimited access to this title plus top books and audiobooks from O’Reilly and nearly 200 top publishers, thousands of courses curated by job role, 150+ live events each month,
and much more.

Read now

Unlock full access

More than 5,000 organizations count on O’Reilly

O’Reilly covers everything we've got, with content to help us build a world-class technology community, upgrade the capabilities and competencies of our teams, and improve overall team performance as well as their engagement.

Julian F.

Head of Cybersecurity

I wanted to learn C and C++, but it didn't click for me until I picked up an O'Reilly book. When I went on the O’Reilly platform, I was astonished to find all the books there, plus live events and sandboxes so you could play around with the technology.

Addison B.

Field Engineer

I’ve been on the O’Reilly platform for more than eight years. I use a couple of learning platforms, but I'm on O'Reilly more than anybody else. When you're there, you start learning. I'm never disappointed.

Amir M.

Data Platform Tech Lead

I'm always learning. So when I got on to O'Reilly, I was like a kid in a candy store. There are playlists. There are answers. There's on-demand training. It's worth its weight in gold, in terms of what it allows me to do.

Mark W.

Embedded Software Engineer

Publisher Resources

ISBN: 0642572344665

Cloud Computing

Data Engineering

Data Science

AI & ML

Programming Languages

Software Architecture

IT/Ops

Security

Design

Business

Soft Skills

IA generativa no Kubernetes (Portuguese Edition)

by Roland Huß, Daniele Zonca

Parte I. Inferência

Become an O’Reilly member and get unlimited access to this title plus top books and audiobooks from O’Reilly and nearly 200 top publishers, thousands of courses curated by job role, 150+ live events each month,
and much more.