Sistemas de produção de aprendizagem automática
by Robert Crowe, Hannes Hapke, Emily Caveness, Di Zhu
Capítulo 4. Viagem de dados e armazenamento de dados
Este trabalho foi traduzido com recurso a IA. Agradecemos o teu feedback e comentários: translation-feedback@oreilly.com
Este capítulo discute a evolução dos dados durante o ciclo de vida de um pipeline de produção. Também analisaremos as ferramentas disponíveis para ajudar a gerenciar esse processo.
Conforme discutido nos capítulos anteriores, os dados são uma parte essencial do ciclo de vida do AM. Como os dados e modelos de ML mudam ao longo do ciclo de vida do ML, é importante poder identificar, rastrear e reproduzir problemas de dados e alterações de modelos. Como este capítulo explica, os Metadados de ML (MLMD), os Metadados do TensorFlow (TFMD) e a Validação de dados do TensorFlow (TFDV) são ferramentas importantes para o ajudar a fazer isto. O MLMD é uma biblioteca para registar e recuperar metadados associados a fluxos de trabalho de ML, que podem ajudar a analisar e depurar várias partes de um sistema de ML que interagem. A TFMD fornece representações padrão de peças-chave de metadados utilizados na formação de modelos de ML, incluindo um esquema que descreve as suas expectativas relativamente às caraterísticas dos dados de entrada do pipeline. Por exemplo, pode especificar o tipo esperado, a valência e o intervalo de valores permitidos no formato de esquema do TFMD. Pode então utilizar um esquema definido por TFMD em TFDV para validar os seus dados, utilizando o processo de validação de dados discutido no Capítulo ...