Sistemas de produção de aprendizagem automática
by Robert Crowe, Hannes Hapke, Emily Caveness, Di Zhu
Capítulo 5. Etiquetagem avançada, aumento e pré-processamento de dados
Este trabalho foi traduzido com recurso a IA. Agradecemos o teu feedback e comentários: translation-feedback@oreilly.com
Os tópicos deste capítulo são especialmente importantes para moldar seus dados e obter o máximo de valor para o seu modelo, especialmente em um cenário de aprendizado supervisionado. A rotulagem, em particular, pode facilmente ser uma das atividades mais caras e demoradas na criação, manutenção e evolução de uma aplicação de ML. Uma boa compreensão das opções disponíveis ajudar-te-á a tirar o máximo partido dos teus recursos e do teu orçamento.
Para esse efeito, neste capítulo vamos discutir o aumento de dados, uma classe de métodos em que adiciona mais dados ao seu conjunto de dados de treino para melhorar o treino, normalmente para melhorar a generalização em particular. O aumento de dados baseia-se quase sempre na manipulação dos dados actuais para criar variações novas, mas ainda válidas, dos teus exemplos.
Também discutiremos o pré-processamento de dados, mas neste capítulo concentrar-nos-emos no pré-processamento específico do domínio. Diferentes domínios, como séries temporais, texto e imagens, têm formas especializadas de engenharia de caraterísticas. Discutimos uma delas, a tokenização de texto, em "Considera as transformações ao nível da instância versus as transformações de passagem completa". Neste capítulo, analisaremos métodos comuns para trabalhar com dados de séries temporais. ...