Capítulo 12. Engenharia de recursos no PySpark
Este trabalho foi traduzido com recurso a IA. Agradecemos o teu feedback e comentários: translation-feedback@oreilly.com
Este capítulo aborda padrões de design para trabalhar com caraterísticas de dados - quaisquer atributos mensuráveis, desde preços de automóveis a valores de genes, contagens de hemoglobina ou níveis de educação - ao construir modelos de aprendizagem automática (também conhecidos como engenharia de caraterísticas). Estes processos (extração, transformação e seleção de caraterísticas) são essenciais para a criação de modelos de aprendizagem automática eficazes. A engenharia de caraterísticas é um dos tópicos mais importantes da aprendizagem automática, porque o sucesso ou fracasso de um modelo na previsão do futuro depende principalmente das caraterísticas que escolheres.
O Spark fornece uma API de aprendizagem automática abrangente para muitos algoritmos bem conhecidos, incluindo regressão linear, regressão logística e árvores de decisão. O objetivo deste capítulo é apresentar ferramentas e técnicas fundamentais no PySpark que podem ser usadas para construir todos os tipos de pipelines de aprendizado de máquina. O capítulo apresenta as poderosas ferramentas e utilitários de aprendizado de máquina do Spark e fornece exemplos usando a API do PySpark. As competências que aprendes aqui serão úteis para um aspirante a cientista de dados ou engenheiro de dados. O meu objetivo não é familiarizar-te com os famosos algoritmos ...