2Das Hadoop File System und Map-Reduce

Google ist durch seine Suchmaschine zu einem erfolgreichen Unternehmen geworden. Technologisch sah es sich der Herausforderung gegenübergestellt, das Internet und dessen Webseiten zu indizieren. In Kombination mit Googles Pagerank-Algorithmus wurde die Internetsuche revolutioniert. Die zu durchsuchenden Daten waren zum einen sehr groß. Zum anderen werden diese stets komplett indiziert und gescannt. Alte Versionen einer Webseite wandern in den Cache und werden durch neue ersetzt. Eine neue Version entsteht, die alte Version wird aber nicht verändert.

Hier ist die Anforderung beschrieben, dass Dateien einmal ...

Get Big Data Analysen now with the O’Reilly learning platform.

O’Reilly members experience books, live events, courses curated by job role, and more from O’Reilly and nearly 200 top publishers.