O'Reilly logo

Einführung in Data Science by Joel Grus

Stay ahead with the world's most comprehensive technology and business learning platform.

With Safari, you learn the way you learn best. Get unlimited access to videos, live online training, learning paths, books, tutorials, and more.

Start Free Trial

No credit card required

KAPITEL 24

MapReduce

Die Zukunft ist bereits eingetreten.

Sie ist nur noch nicht gleichmäßig verteilt.

William Gibson

MapReduce ist ein Programmierparadigma zum parallelen Verarbeiten großer Datenmengen. Obwohl es eine mächtige Technik ist, beruht es auf einer relativ einfachen Grundidee. Angenommen, wir möchten eine Anzahl Datensätze verarbeiten. Diese Datensätze könnten zum Beispiel Logfiles von Webseiten, Texte verschiedener Bücher, Bilder oder irgendetwas anderes sein. Eine einfache Version des MapReduce-Algorithmus besteht aus den folgenden Schritten:

  1. Verwende eine mapper-Funktion, um jeden Datensatz in null oder mehr Schlüssel/Wert-Paare umzuwandeln. (Diese wird oft auch map-Funktion genannt, aber in Python gibt es bereits eine Funktion ...

With Safari, you learn the way you learn best. Get unlimited access to videos, live online training, learning paths, books, interactive tutorials, and more.

Start Free Trial

No credit card required