March 2024
Intermediate to advanced
592 pages
14h 8m
German
Konzeptionell sollen CSV-Dateien von Menschen leicht gelesen werden können. Insbesondere eignen sie sich gut als Austauschformat, weil sie einfach sind und jedes Tool auf Erden sie lesen kann. Allerdings sind CSV-Dateien nicht effizient: Sie müssen ziemlich viel Arbeit hineinstecken, um die Daten in R einzulesen. In diesem Kapitel lernen Sie eine leistungsfähige Alternative kennen: das Parquet-Format (https://oreil.ly/ClE7D), ein auf offenen Standards beruhendes Format, das von größeren Datensystemen verwendet wird.
Wir kombinieren Parquet-Dateien mit Apache Arrow, einer mehrsprachigen Toolbox, die für die effiziente Analyse und den Transport großer Datensets entwickelt wurde. Apache Arrow verwenden wir über das Paket ...