Hadoop -- Komplety przewodnik. Analiza i przechowywanie danych

Rozdział 19. Spark

Apache Spark (https://spark.apache.org/) to platforma przetwarzania przeznaczona do pracy z dużymi zbiorami danych w klastrze. W odróżnieniu od większości innych platform przetwarzania omówionych w tej książce Spark nie wykorzystuje modelu MapReduce jako silnika wykonawczego. Zamiast tego korzysta z własnego rozproszonego środowiska uruchomieniowego do wykonywania pracy w klastrze. Jednak w wielu aspektach (takich jak interfejs API i środowisko uruchomieniowe) Spark jest podobny do modelu MapReduce, o czym przekonasz się w tym rozdziale. Spark jest ściśle zintegrowany z Hadoopem. Może działać w systemie YARN oraz obsługuje formaty plików z Hadoopa i używane na zapleczu systemy przechowywania danych (na przykład system HDFS). ...

Get Hadoop -- Komplety przewodnik. Analiza i przechowywanie danych now with the O’Reilly learning platform.

O’Reilly members experience books, live events, courses curated by job role, and more from O’Reilly and nearly 200 top publishers.

Start your free trial

Hadoop -- Komplety przewodnik. Analiza i przechowywanie danych by Tom White

Rozdział 19. Spark

Don’t leave empty-handed

It’s yours, free.

Check it out now on O’Reilly