Rozdział 25. Algorytm MapReduce
Przyszłość jest teraz, tylko nierówno rozłożona.
— William Gibson
MapReduce to model programistyczny przeznaczony do równoległego przetwarzania dużych zbiorów danych. Technika ta ma ogromne możliwości, ale jej podstawy są dość proste.
Załóżmy, że dysponujemy zbiorem obiektów, które chcemy jakoś przetworzyć. Obiekty te mogą być np. dziennikami stron internetowych, tekstami pochodzącymi z różnych książek, plikami graficznymi lub danymi w dowolnej innej formie. Podstawowa wersja algorytmu MapReduce wykonuje następujące kroki.
- Korzysta z funkcji
mapper
w celu przekształcenia każdego obiektu w zero lub więcej par klucz-wartość. (Funkcję tę często nazywa się po prostumap
, ale w Pythonie istnieje wbudowana funkcja ...
Get Data science od podstaw now with the O’Reilly learning platform.
O’Reilly members experience books, live events, courses curated by job role, and more from O’Reilly and nearly 200 top publishers.