Capítulo 22. Flecha

Este trabajo se ha traducido utilizando IA. Agradecemos tus opiniones y comentarios: translation-feedback@oreilly.com

Introducción

Los archivos CSV están diseñados para ser leídos fácilmente por humanos. Son un buen formato de intercambio porque son sencillos y pueden ser leídos por cualquier herramienta. Pero los archivos CSV no son eficientes: tienes que hacer bastante trabajo para leer los datos en R. En este capítulo, conocerás una potente alternativa: el formato parquet, un formato basado en estándares abiertos muy utilizado por los sistemas de big data.

Emparejaremos los archivos parquet con Apache Arrow, una caja de herramientas multilingüe diseñada para el análisis y transporte eficientes de grandes conjuntos de datos. Utilizaremos Apache Arrow mediante el paquete arrow, que proporciona un backend de dplyr que te permite analizar conjuntos de datos más grandes que la memoria utilizando la conocida sintaxis de dplyr. Como ventaja adicional, arrow es extremadamente rápido; verás algunos ejemplos más adelante en el capítulo.

Tanto arrow como dbplyr proporcionan backends de dplyr, por lo que podrías preguntarte cuándo utilizar cada uno. En muchos casos, la elección se hace por ti, ya que los datos ya están en una base de datos o en archivos parquet, y querrás trabajar con ellos tal cual. Pero si empiezas con tus propios datos (quizás archivos CSV), puedes cargarlos en una base de datos o convertirlos a parquet. En general, es difícil saber qué funcionará ...

Get R para la Ciencia de Datos, 2ª Edición now with the O’Reilly learning platform.

O’Reilly members experience books, live events, courses curated by job role, and more from O’Reilly and nearly 200 top publishers.