Rozdział 25. Algorytm MapReduce

Przyszłość jest teraz, tylko nierówno rozłożona.

— William Gibson

MapReduce to model programistyczny przeznaczony do równoległego przetwarzania dużych zbiorów danych. Technika ta ma ogromne możliwości, ale jej podstawy są dość proste.

Załóżmy, że dysponujemy zbiorem obiektów, które chcemy jakoś przetworzyć. Obiekty te mogą być np. dziennikami stron internetowych, tekstami pochodzącymi z różnych książek, plikami graficznymi lub danymi w dowolnej innej formie. Podstawowa wersja algorytmu MapReduce wykonuje następujące kroki.

  1. Korzysta z funkcji mapper w celu przekształcenia każdego obiektu w zero lub więcej par klucz-wartość. (Funkcję tę często nazywa się po prostu map, ale w Pythonie istnieje wbudowana funkcja ...

Get Data science od podstaw now with the O’Reilly learning platform.

O’Reilly members experience books, live events, courses curated by job role, and more from O’Reilly and nearly 200 top publishers.