Rozdział 9. Tworzenie niezawodnych jezior danych za pomocą Apache Spark

W poprzednich rozdziałach wyjaśniliśmy, jak można łatwo i efektywnie używać frameworka Apache Spark do tworzenia skalowanych i wydajnych potoków przetwarzania danych. Jednak w praktyce wyrażenie logiki przetwarzania powoduje rozwiązanie tylko połowy problemu związanego z tworzeniem potoku. Dla inżyniera danych, naukowca lub analityka danych ostatecznym celem tworzenia potoków jest wykonywanie zapytań do przetwarzanych danych i otrzymywanie na ich podstawie pewnych informacji. Wybór rozwiązania w zakresie pamięci masowej decyduje o kompleksowej (np. od niezmodyfikowanych danych do wniosków na ich podstawie) niezawodności i wydajności działania potoku danych.

W tym rozdziale ...

Get Spark now with the O’Reilly learning platform.

O’Reilly members experience books, live events, courses curated by job role, and more from O’Reilly and nearly 200 top publishers.