Capítulo 6. Prepara o conjunto de dados para o treinamento do modelo
Este trabalho foi traduzido com recurso a IA. Agradecemos o teu feedback e comentários: translation-feedback@oreilly.com
Em o capítulo anterior, explorámos o nosso conjunto de dados utilizando o SageMaker Studio e várias bibliotecas de visualização baseadas em Python. Obtivemos algumas informações comerciais importantes sobre o nosso catálogo de produtos utilizando o Amazon Customer Reviews Dataset. Além disso, analisámos estatísticas resumidas e realizámos verificações de qualidade no nosso conjunto de dados utilizando o SageMaker Processing Jobs, o Apache Spark e a biblioteca de código aberto AWS Deequ.
Neste capítulo, discutimos como transformar texto legível por humanos em vectores legíveis por máquinas, num processo chamado "engenharia de caraterísticas". Especificamente, converte a coluna review_body bruta do conjunto de dados Amazon Customer Reviews em vectores BERT. Utilizamos estes vectores BERT para treinar e otimizar um modelo de classificador de críticas nos Capítulos 7 e 8, respetivamente. No Capítulo 7, também nos aprofundaremos nas origens do processamento de linguagem natural e do BERT.
Usaremos o modelo de classificador de avaliação para prever o star_rating de avaliações de produtos de canais sociais, sites de parceiros, etc. Ao prever o star_rating das críticas, as equipas de gestão de produtos e de apoio ao cliente podem utilizar estas previsões para resolver problemas de qualidade à medida ...