Rozdział 6. Spark SQL i Dataset

W rozdziałach 4. i 5. omówiliśmy Spark SQL i API DataFrame. Wyjaśniliśmy, jak nawiązywać połączenia z wbudowanymi źródłami danych, pokrótce przedstawiliśmy silnik Spark SQL, a także poruszyliśmy kilka innych tematów, np. współdziałanie kodu SQL i egzemplarzy DataFrame, tworzenie widoków i tabel oraz zarządzanie nimi, jak również przeprowadzanie zaawansowanych transformacji DataFrame i SQL.

Wprawdzie pokrótce przedstawiliśmy API Dataset w rozdziale 3., ale pominęliśmy pewne aspekty związane z tym, w jaki sposób egzemplarze Dataset — kolekcje rozproszone o ściśle określonych typach — są w Sparku tworzone, przechowywane, serializowane i deserializowane.

W tym rozdziale zajrzymy pod maskę egzemplarza Dataset — wyjaśnimy, ...

Get Spark now with the O’Reilly learning platform.

O’Reilly members experience books, live events, courses curated by job role, and more from O’Reilly and nearly 200 top publishers.