Sistemas de produção de aprendizagem automática
by Robert Crowe, Hannes Hapke, Emily Caveness, Di Zhu
Capítulo 3. Engenharia de caraterísticas e seleção de caraterísticas
Este trabalho foi traduzido com recurso a IA. Agradecemos o teu feedback e comentários: translation-feedback@oreilly.com
A engenharia de caraterísticas e a seleção de caraterísticas estão no centro do pré-processamento de dados para ML, especialmente para a formação de modelos. A engenharia de caraterísticas também é necessária quando se efectua a inferência e é fundamental que o pré-processamento efectuado durante a inferência corresponda ao pré-processamento efectuado durante o treino.
Parte do material deste capítulo pode parecer uma revisão, especialmente se tiver trabalhado com ML num contexto de não produção, como num ambiente académico ou de pesquisa. Mas, neste capítulo, vamos nos concentrar em questões de produção. Uma questão importante que discutiremos é como executar a engenharia de recursos em escala de forma reproduzível e consistente.
Também discutiremos a seleção de caraterísticas e a sua importância num contexto de produção. Muitas vezes, terás mais caraterísticas do que realmente precisas para o teu modelo, e o teu objetivo deve ser incluir apenas as caraterísticas que oferecem as informações mais preditivas para o problema que estás a tentar resolver. Incluir mais do que isso acrescenta custos e complexidade e pode contribuir para problemas de qualidade, como o sobreajuste.
Introdução à engenharia de caraterísticas
A criação de caraterísticas é difícil, morosa e requer conhecimentos especializados. ...