Apêndice A. Detalhes técnicos de serialização e compressão
Os engenheiros de dados que trabalham na Cloud estão geralmente livres das complexidades da gestão de sistemas de armazenamento de objectos. Ainda assim, eles precisam entender os detalhes dos formatos de serialização e desserialização. Como mencionamos no Capítulo 6 sobre os ingredientes brutos do armazenamento, os algoritmos de serialização e compressão andam de mãos dadas.
Formatos de serialização
Muitos algoritmos e formatos de serialização estão disponíveis para os engenheiros de dados. Embora a abundância de opções seja uma fonte significativa de dor na engenharia de dados, elas também são uma grande oportunidade para melhorias de desempenho. Às vezes, vimos o desempenho do trabalho melhorar por um fator de 100 simplesmente mudando da serialização CSV para Parquet. À medida que os dados passam por um pipeline, os engenheiros também gerenciam a resserialização - conversão de um formato para outro. Por vezes, os engenheiros de dados não têm outra opção senão aceitar dados num formato antigo e desagradável; têm de conceber processos para desserializar este formato e tratar as excepções, e depois limpar e converter os dados para um processamento e consumo consistente e rápido a jusante.
Serialização baseada em linhas
Tal como o seu nome sugere, a serialização baseada em linhas organiza os dados por linha. O formato CSV é um formato arquetípico baseado em linhas. Para dados semiestruturados (objectos de dados que suportam ...