March 2015
Intermediate to advanced
672 pages
25h 16m
Polish
Apache Spark (https://spark.apache.org/) to platforma przetwarzania przeznaczona do pracy z dużymi zbiorami danych w klastrze. W odróżnieniu od większości innych platform przetwarzania omówionych w tej książce Spark nie wykorzystuje modelu MapReduce jako silnika wykonawczego. Zamiast tego korzysta z własnego rozproszonego środowiska uruchomieniowego do wykonywania pracy w klastrze. Jednak w wielu aspektach (takich jak interfejs API i środowisko uruchomieniowe) Spark jest podobny do modelu MapReduce, o czym przekonasz się w tym rozdziale. Spark jest ściśle zintegrowany z Hadoopem. Może działać w systemie YARN oraz obsługuje formaty plików z Hadoopa i używane na zapleczu systemy przechowywania danych (na przykład system HDFS). ...