Rozdział 9. Funkcje modelu MapReduce

W tym rozdziale opisano wybrane zaawansowane funkcje modelu MapReduce, w tym liczniki oraz sortowanie i złączanie zbiorów danych.

Liczniki

Użytkownik często chce dowiedzieć się na temat analizowanych danych pewnych rzeczy, które jednak nie dotyczą bezpośrednio przeprowadzanych analiz. Na przykład jeśli w trakcie zliczania nieprawidłowych rekordów okaże się, że ich procent jest bardzo wysoki, może to zachęcić do sprawdzenia, dlaczego tak wiele rekordów jest oznaczanych jako błędne. Możliwe, że w części programu wykrywającej nieprawidłowe rekordy kryje się błąd. Jeśli natomiast okaże się, że dane mają niską jakość i rzeczywiście występuje w nich bardzo dużo niepoprawnych rekordów, można powiększyć zbiór danych, ...

Get Hadoop -- Komplety przewodnik. Analiza i przechowywanie danych now with the O’Reilly learning platform.

O’Reilly members experience books, live events, courses curated by job role, and more from O’Reilly and nearly 200 top publishers.