Rozdział 6. Przygotowywanie zbioru danych do uczenia modelu
W poprzednim rozdziale zbadaliśmy zbiór danych, używając środowiska SageMaker Studio i różnych pythonowych bibliotek do generowania wizualizacji. Uzyskaliśmy ważne informacje biznesowe na temat katalogu produktów na podstawie zbioru danych Amazon Customer Reviews. Ponadto przeanalizowaliśmy statystyki zbiorcze i sprawdziliśmy jakość zbioru danych, używając zadań SageMaker Processing, platformy Apache Spark i otwartej biblioteki AWS Deequ.
W tym rozdziale pokazujemy, jak za pomocą inżynierii cech przekształcić czytelny dla człowieka tekst na czytelne dla maszyny wektory. Przekształcimy kolumnę review_body
ze zbioru danych Amazon Customer Reviews w wektory algorytmu BERT. W rozdziałach ...
Get Inżynieria danych na platformie AWS now with the O’Reilly learning platform.
O’Reilly members experience books, live events, courses curated by job role, and more from O’Reilly and nearly 200 top publishers.