Capítulo 5. Observabilidadedo modelo
Este trabalho foi traduzido com recurso a IA. Agradecemos o teu feedback e comentários: translation-feedback@oreilly.com
No Capítulo 1, aprendemos como implantar um LLM no Kubernetes, começando do zero com um exemplo simples de codificação. A pilha completa incluía um servidor de modelo, vLLM, para otimizar a execução do modelo, e um Controlador de Servidor de Modelo, KServe, para gerenciar a integração com o Kubernetes e o ciclo de vida da implantação.
Então, no Capítulo 2, focamos nos dados do modelo LLM, com a complexidade e as opções disponíveis hoje para gerenciar o tamanho de modelos semelhantes. Estamos cada vez mais próximos de uma configuração de produção completa, na qual a carga de trabalho do LLM é totalmente gerenciada e automatizada para que possa ser executada lado a lado com outras cargas de trabalho (ou seja, aplicativos tradicionais), todas gerenciadas por Kubernetes.
Kubernetes orquestra a execução de contêineres por meio de uma API declarativa, usando controladores e loops de reconciliação para autocorrigir cargas de trabalho de maneira eventualmente consistente. Todos com experiência em Kubernetes sabem que essa abordagem não substitui a observabilidade e o monitoramento adequados. Esses recursos permitem que você reaja rapidamente quando algo não pode ser resolvido automaticamente. Esse princípio também se aplica aos LLMs. É fundamental monitorar um servidor de modelo, mas, dada a natureza dos LLMs, isso não é equivalente ...
Become an O’Reilly member and get unlimited access to this title plus top books and audiobooks from O’Reilly and nearly 200 top publishers, thousands of courses curated by job role, 150+ live events each month,
and much more.
Read now
Unlock full access