Annexe A. Détails techniques de la sérialisation et de la classification
Les ingénieurs des données qui travaillent dans l'informatique doivent se libérer des contraintes liées à la gestion des systèmes d'archivage des objets. Cependant, ils doivent comprendre les détails des formats de sérialisation et de désérialisation. Comme nous l'avons mentionné dans le chapitre 6 sur les matériaux de base de l'entreposage, les algorithmes de sérialisation et de compression sont à la main.
Formats de sérialisation
Les ingénieurs des données disposent de nombreux algorithmes et formats de sérialisation sur . Bien que l'abondance des options soit une source importante de douleur dans l'ingénierie des données, elles constituent également une énorme opportunité d'améliorer le rendement. Nous avons parfois constaté que le rendement du travail s'améliorait d'un facteur 100 simplement en passant de la sérialisation CSV à Parquet. Lorsque les données sont transférées par le biais d'une canalisation, les ingénieurs doivent également gérer la resérialisation, c'est-à-dire la conversion d'un format à un autre. Parfois, les ingénieurs des données n'ont pas d'autre solution que d'accepter des données sous une forme antisociale et dégradable ; ils doivent concevoir des processus pour désérialiser ce format et gérer les exceptions, puis limper et convertir les données pour un traitement et une consommation ultérieurs cohérents et rapides.
Serialización basada en filas
Comme le suggère son nombre,