March 2015
Intermediate to advanced
672 pages
25h 16m
Polish
Aaron Kimball
Wielką zaletą Hadoopa jest możliwość pracy z danymi o różnej formie. System HDFS potrafi przechowywać dzienniki i dane z wielu różnych źródeł, a programy w modelu MapReduce pozwalają przetwarzać rozmaite doraźnie tworzone formaty danych, wyodrębniać istotne informacje i łączyć różne zbiory danych w wartościowe zbiory wyników.
Jednak do interakcji z danymi z repozytoriów spoza systemu HDFS programy w modelu MapReduce muszą używać zewnętrznych interfejsów API. Wartościowe dane organizacji często są przechowywane w ustrukturyzowanych magazynach danych, na przykład w systemach RDBMS (ang. Relational Database Management System). Apache Sqoop (http://sqoop.apache.org/) to narzędzie o otwartym dostępie do kodu źródłowego, ...