Appendice A. Dettagli tecnici sulla serializzazione e la compressione
I data engineer che lavorano nel cloud sono generalmente liberi dalle complessità della gestione dei sistemi di archiviazione a oggetti. Tuttavia, devono comprendere i dettagli dei formati di serializzazione e deserializzazione. Come abbiamo detto nel Capitolo 6 sulle materie prime dello storage, gli algoritmi di serializzazione e compressione vanno di pari passo.
Formati di serializzazione
Molti algoritmi e formati di serializzazione sono a disposizione degli ingegneri dei dati. Se da un lato l'abbondanza di opzioni è una fonte significativa di dolore nell'ingegneria dei dati, dall'altro rappresenta un'enorme opportunità di miglioramento delle prestazioni. A volte abbiamo visto migliorare le prestazioni del lavoro di un fattore 100 semplicemente passando dalla serializzazione CSV a quella Parquet. Mentre i dati si muovono attraverso una pipeline, gli ingegneri gestiscono anche la riserializzazione, ovvero la conversione da un formato all'altro. A volte gli ingegneri dei dati non hanno altra scelta se non quella di accettare i dati in una forma vecchia e sgradevole; devono progettare processi per deserializzare questo formato e gestire le eccezioni, per poi ripulire e convertire i dati per un'elaborazione e un consumo coerenti e veloci a valle.
Serializzazione basata sulle righe
Come suggerisce il nome, la serializzazione basata sulle righe organizza i dati per riga. Il formato CSV è un archetipo di formato ...