Sistemas de produção de aprendizagem automática
by Robert Crowe, Hannes Hapke, Emily Caveness, Di Zhu
Capítulo 2. Recolha, rotulagem e validação de dados
Este trabalho foi traduzido com recurso a IA. Agradecemos o teu feedback e comentários: translation-feedback@oreilly.com
Em ambientes de produção, descobre algumas coisas interessantes sobre a importância dos dados. Perguntámos aos profissionais de ML da Uber e da Gojek, duas empresas em que os dados e o ML são essenciais, sobre isso. Eis o que eles têm a dizer:
Os dados são a parte mais difícil do ML e a peça mais importante a obter corretamente... Os dados danificados são a causa mais comum de problemas nos sistemas de ML de produção.
Praticante de ML na Uber
Nenhuma outra atividade no ciclo de vida da aprendizagem automática tem um maior retorno sobre o investimento do que melhorar os dados a que um modelo tem acesso.
Praticante de ML na Gojek
A verdade é que se perguntares a qualquer membro da equipa de ML de produção sobre a importância dos dados, obterás uma resposta semelhante. É por isso que estamos a falar de dados: são incrivelmente importantes para o sucesso, e as questões relacionadas com os dados em ambientes de produção são muito diferentes das do ambiente académico ou de pesquisa com que podes estar familiarizado.
OK, agora que já tirámos isso do caminho, vamos lá começar!
Considerações importantes sobre a recolha de dados
Na conceção de linguagens de programação, um cidadão de primeira classe numa determinada linguagem de programação é uma entidade que suporta todas as operações geralmente disponíveis para ...