Capítulo 6. Preparar el conjunto de datos para el entrenamiento del modelo

Este trabajo se ha traducido utilizando IA. Agradecemos tus opiniones y comentarios: translation-feedback@oreilly.com

En el capítulo anterior, exploramos nuestro conjunto de datos utilizando SageMaker Studio y varias bibliotecas de visualización basadas en Python. Obtuvimos algunas perspectivas empresariales clave de nuestro catálogo de productos utilizando el conjunto de datos de opiniones de clientes de Amazon. Además, analizamos estadísticas resumidas y realizamos comprobaciones de calidad en nuestro conjunto de datos utilizando SageMaker Processing Jobs, Apache Spark y la biblioteca de código abierto AWS Deequ.

En este capítulo, analizaremos cómo transformar un texto legible por humanos en vectores legibles por máquinas, en un proceso denominado "ingeniería de características". En concreto, convertiremos la columna review_body sin procesar del Conjunto de Datos de Reseñas de Clientes de Amazon en vectores BERT. Utilizaremos estos vectores BERT para entrenar y optimizar un modelo clasificador de reseñas en los Capítulos 7 y 8, respectivamente. También profundizaremos en los orígenes del procesamiento del lenguaje natural y el BERT en el Capítulo 7.

Utilizaremos el modelo clasificador de reseñas para predecir el star_rating de las reseñas de productos procedentes de canales sociales, sitios web asociados, etc. Al predecir el star_rating de las reseñas en la naturaleza, los equipos de gestión de productos ...

Get Ciencia de datos en AWS now with the O’Reilly learning platform.

O’Reilly members experience books, live events, courses curated by job role, and more from O’Reilly and nearly 200 top publishers.