October 2018
Intermediate to advanced
296 pages
8h 55m
Polish
Przyszłość jest teraz, tylko nierówno rozłożona.
— William Gibson
MapReduce to model programistyczny przeznaczony do równoległego przetwarzania dużych zbiorów danych. Technika ta ma ogromne możliwości, ale jej podstawy są dość proste.
Załóżmy, że dysponujemy zbiorem obiektów, które chcemy jakoś przetworzyć. Obiekty te mogą być np. dziennikami stron internetowych, tekstami pochodzącymi z różnych książek, plikami graficznymi lub danymi w dowolnej innej formie. Podstawowa wersja algorytmu MapReduce wykonuje następujące kroki.
mapper w celu przekształcenia każdego obiektu w zero lub więcej par klucz-wartość. (Funkcję tę często nazywa się po prostu map, ale w Pythonie istnieje wbudowana funkcja ...