Rozdział 16. Pig

Platforma Apache Pig (http://pig.apache.org/) umożliwia przetwarzanie dużych zbiorów danych na wyższym poziomie abstrakcji. Model MapReduce pozwala programiście wskazać funkcję mapującą, po której ma działać funkcja redukująca. Jednak ustalenie, jak dostosować proces przetwarzania danych do tego wzorca (często niezbędnych jest wiele etapów modelu MapReduce), bywa trudne. W platformie Pig struktury danych są znacznie bogatsze. Obsługują wiele wartości i poziomów zagnieżdżenia oraz umożliwiają skomplikowane przekształcenia danych. Pig udostępnia na przykład złączenia, których stosowanie w modelu MapReduce jest trudne.

Platforma Pig składa się z dwóch elementów. Oto one:

  • Język używany do zapisywania przepływu danych (nazywany ...

Get Hadoop -- Komplety przewodnik. Analiza i przechowywanie danych now with the O’Reilly learning platform.

O’Reilly members experience books, live events, courses curated by job role, and more from O’Reilly and nearly 200 top publishers.