KAPITEL 6
Vorbereitung des Datensatzes für das Modelltraining
Im vorherigen Kapitel haben wir unseren Datensatz mit SageMaker Studio und verschiedenen Python-basierten Visualisierungsbibliotheken erkundet. Mithilfe des Amazon-Customer-Reviews-Datensatzes haben wir einige wichtige Einblicke in den Produktkatalog gewonnen. Außerdem haben wir mithilfe von SageMaker Processing Jobs, Apache Spark und der Open-Source-Bibliothek AWS Deequ zusammenfassende Statistiken analysiert und Qualitätsprüfungen für unseren Datensatz vorgenommen.
In diesem Kapitel erörtern wir, wie menschenlesbarer Text in maschinenlesbare Vektoren umgewandelt werden kann – ein Prozess, der als Feature Engineering bezeichnet wird. Konkret werden wir die unbearbeitete bzw. in Form ...
Get Data Science mit AWS now with the O’Reilly learning platform.
O’Reilly members experience books, live events, courses curated by job role, and more from O’Reilly and nearly 200 top publishers.