Rozdział 6. Spark SQL i Dataset
W rozdziałach 4. i 5. omówiliśmy Spark SQL i API DataFrame. Wyjaśniliśmy, jak nawiązywać połączenia z wbudowanymi źródłami danych, pokrótce przedstawiliśmy silnik Spark SQL, a także poruszyliśmy kilka innych tematów, np. współdziałanie kodu SQL i egzemplarzy DataFrame, tworzenie widoków i tabel oraz zarządzanie nimi, jak również przeprowadzanie zaawansowanych transformacji DataFrame i SQL.
Wprawdzie pokrótce przedstawiliśmy API Dataset w rozdziale 3., ale pominęliśmy pewne aspekty związane z tym, w jaki sposób egzemplarze Dataset — kolekcje rozproszone o ściśle określonych typach — są w Sparku tworzone, przechowywane, serializowane i deserializowane.
W tym rozdziale zajrzymy pod maskę egzemplarza Dataset — wyjaśnimy, ...
Get Spark now with the O’Reilly learning platform.
O’Reilly members experience books, live events, courses curated by job role, and more from O’Reilly and nearly 200 top publishers.