Rozdział 13. Parquet

Apache Parquet (http://parquet.apache.org/) to kolumnowy format przechowywania danych umożliwiający wydajne zapisywanie danych zagnieżdżonych.

Formaty kolumnowe są atrakcyjne, ponieważ pozwalają uzyskać wyższą wydajność zarówno ze względu na wielkość plików, jak i szybkość przetwarzania zapytań. Wielkość plików jest zwykle mniejsza niż w formatach wierszowych, ponieważ w formacie kolumnowym wartości z jednej kolumny są zapisywane obok siebie, co zwykle pozwala na bardzo wydajne kodowanie danych. Na przykład dla kolumny ze znacznikiem czasu można zapisać pierwszą wartość, a następnie same różnice między kolejnymi wartościami (które zwykle są niewielkie dzięki temu, że rekordy z podobnego czasu przeważnie są zapisywane obok ...

Get Hadoop -- Komplety przewodnik. Analiza i przechowywanie danych now with the O’Reilly learning platform.

O’Reilly members experience books, live events, courses curated by job role, and more from O’Reilly and nearly 200 top publishers.