Rozdział 19. Spark

Apache Spark (https://spark.apache.org/) to platforma przetwarzania przeznaczona do pracy z dużymi zbiorami danych w klastrze. W odróżnieniu od większości innych platform przetwarzania omówionych w tej książce Spark nie wykorzystuje modelu MapReduce jako silnika wykonawczego. Zamiast tego korzysta z własnego rozproszonego środowiska uruchomieniowego do wykonywania pracy w klastrze. Jednak w wielu aspektach (takich jak interfejs API i środowisko uruchomieniowe) Spark jest podobny do modelu MapReduce, o czym przekonasz się w tym rozdziale. Spark jest ściśle zintegrowany z Hadoopem. Może działać w systemie YARN oraz obsługuje formaty plików z Hadoopa i używane na zapleczu systemy przechowywania danych (na przykład system HDFS). ...

Get Hadoop -- Komplety przewodnik. Analiza i przechowywanie danych now with the O’Reilly learning platform.

O’Reilly members experience books, live events, courses curated by job role, and more from O’Reilly and nearly 200 top publishers.