Rozdział 3. System HDFS

Gdy zbiór danych staje się na tyle duży, że nie mieści się na jednej fizycznej maszynie, konieczny jest podział go między zestaw odrębnych komputerów. Systemy plików zarządzające przechowywaniem danych w sieci maszyn to rozproszone systemy plików. Ponieważ pracują w sieci, występują w nich wszystkie komplikacje związane z programowaniem sieciowym. Dlatego rozproszone systemy plików są bardziej złożone od standardowych (dyskowych). Jednym z największych wyzwań jest zapewnienie odporności systemu plików na awarie węzłów bez utraty danych.

Hadoop udostępnia rozproszony system plików HDFS (ang. Hadoop Distributed Filesystem). W nieformalnych tekstach, starszej dokumentacji lub konfiguracji możesz natrafić na nazwę „DFS” — ...

Get Hadoop -- Komplety przewodnik. Analiza i przechowywanie danych now with the O’Reilly learning platform.

O’Reilly members experience books, live events, courses curated by job role, and more from O’Reilly and nearly 200 top publishers.