Capítulo 5. Ajuste del rendimiento

Este trabajo se ha traducido utilizando IA. Agradecemos tus opiniones y comentarios: translation-feedback@oreilly.com

Siempre que almacenes y recuperes datos, ya sea con un RDBMS tradicional o con tablas Delta, la forma de organizar los datos en el formato de almacenamiento subyacente puede afectar significativamente al tiempo que se tarda en realizar operaciones y consultas en las tablas. En general, el ajuste del rendimiento se refiere al proceso de optimizar el rendimiento de un sistema, y en el contexto de las tablas Delta esto implica optimizar cómo se almacenan y recuperan los datos. Históricamente, la recuperación de datos se consigue aumentando la RAM o la CPU para un procesamiento más rápido, o reduciendo la cantidad de datos que hay que leer omitiendo los datos no relevantes. Delta Lake proporciona una serie de técnicas diferentes que pueden combinarse para acelerar la recuperación de datos reduciendo eficazmente la cantidad de archivos y datos que hay que leer durante las operaciones.

Un problema adicional que puede contribuir a lecturas más lentas y a un procesamiento ineficiente en Apache Spark y Delta Lake es el problema de los archivos pequeños, mencionado brevemente en el Capítulo 1. El problema de los archivos pequeños es un problema que puede surgir cuando los archivos de datos subyacentes se dividen en numerosos archivos pequeños, en lugar de archivos más grandes y eficientes. Puede ocurrir por varias razones diferentes, principalmente ...

Get Lago Delta: En marcha now with the O’Reilly learning platform.

O’Reilly members experience books, live events, courses curated by job role, and more from O’Reilly and nearly 200 top publishers.