Sistemas de produção de aprendizagem automática
by Robert Crowe, Hannes Hapke, Emily Caveness, Di Zhu
Capítulo 12. Modelos de padrões de serviço
Este trabalho foi traduzido com recurso a IA. Agradecemos o teu feedback e comentários: translation-feedback@oreilly.com
Depois de treinados, os modelos de ML são utilizados para gerar previsões ou resultados, um processo designado por execução de inferência ou utilização do modelo. O valor final do modelo está nos resultados que gera, que devem refletir a informação nos dados de treino o mais próximo possível, sem a duplicar. Por outras palavras, o modelo de ML deve generalizar bem e ser tão preciso, fiável e estável quanto possível. Neste capítulo, veremos alguns dos muitos padrões para servir modelos e a infraestrutura necessária.
As principais formas de servir um modelo são como um processo em lote ou um processo em tempo real. Discutiremos ambos, juntamente com o pré e pós-processamento dos dados, e aplicações mais especializadas, como o serviço na borda ou em um navegador.
Inferência em lote
Depois de treinar, avaliar e ajustar um modelo de ML, o modelo é implantado na produção para gerar previsões. Em aplicações em que um atraso é aceitável, um modelo pode ser utilizado para fornecer previsões em lotes, que serão depois aplicadas a um caso de utilização no futuro.
A previsão baseada na inferência em lote é quando o teu modelo é utilizado offline, num trabalho em lote, normalmente para um grande número de pontos de dados, e onde as previsões não têm de (ou não podem) ser geradas em tempo real. Nas recomendações em lote, podes utilizar ...