Suchindizes aufbauen
Google hat ursprünglich mit MapReduce die Indizes für seine Suchmaschine aufgebaut, nämlich implementiert als Workflow von fünf bis zehn MapReduce-Jobs [1]. Obwohl Google später davon abgerückt ist, MapReduce für diesen Zweck einzusetzen [43], hilft es für das Verständnis von MapReduce, wenn man die Aufgabe betrachtet, einen Suchindex aufzubauen. (Auch heute ist Hadoop MapReduce weiterhin eine gute Methode, um Indizes für Lucene/Solr zu erstellen [44].)
Der Abschnitt »Volltextsuche und Fuzzy-Indizes« auf Seite 94 hat kurz gezeigt, wie ein Volltextsuchindex wie zum Beispiel Lucene funktioniert: Es handelt sich um eine Datei (das Begriffswörterbuch), in der man effizient nach einem bestimmten Schlüsselwort suchen kann und die ...
Get Datenintensive Anwendungen designen now with the O’Reilly learning platform.
O’Reilly members experience books, live events, courses curated by job role, and more from O’Reilly and nearly 200 top publishers.