KAPITEL 22

Arrow

Einführung

Konzeptionell sollen CSV-Dateien von Menschen leicht gelesen werden können. Insbesondere eignen sie sich gut als Austauschformat, weil sie einfach sind und jedes Tool auf Erden sie lesen kann. Allerdings sind CSV-Dateien nicht effizient: Sie müssen ziemlich viel Arbeit hineinstecken, um die Daten in R einzulesen. In diesem Kapitel lernen Sie eine leistungsfähige Alternative kennen: das Parquet-Format (https://oreil.ly/ClE7D), ein auf offenen Standards beruhendes Format, das von größeren Datensystemen verwendet wird.

Wir kombinieren Parquet-Dateien mit Apache Arrow, einer mehrsprachigen Toolbox, die für die effiziente Analyse und den Transport großer Datensets entwickelt wurde. Apache Arrow verwenden wir über das Paket ...

Get R für Data Science, 2nd Edition now with the O’Reilly learning platform.

O’Reilly members experience books, live events, courses curated by job role, and more from O’Reilly and nearly 200 top publishers.