Capítulo 51. La mayoría de los problemas de datos no son problemas de Big Data

Este trabajo se ha traducido utilizando IA. Agradecemos tus opiniones y comentarios: translation-feedback@oreilly.com

Thomas Nield

Cuando la palabra de moda big data alcanzó su punto álgido en 2015, recuerdo que NoSQL, Hadoop, MongoDB y otras tecnologías de datos no estructurados se promocionaban como el futuro de la analítica. Muchas organizaciones empezaron a recopilar datos más rápido de lo que podían organizarlos y almacenarlos, así que simplemente los volcaron en un clúster y escalaron horizontalmente según fuera necesario. Muchas empresas invirtieron enormes sumas en migrar de bases de datos relacionales como MySQL a plataformas de big data como Apache Hadoop.

En medio de este movimiento, estaba impartiendo una formación online de O'Reilly sobre SQL. Un participante me sugirió que las bases de datos relacionales y SQL podrían ser tecnología heredada. Por si la falta de escalabilidad horizontal no fuera razón suficiente, las bases de datos relacionales tienen toda esta molesta sobrecarga para estructurar los datos de forma normalizada, así como para aplicar la validación de datos y las claves primarias/extranjeras. Internet y la conectividad de los dispositivos provocaron una explosión de datos, por lo que la escalabilidad se convirtió en el argumento de venta de NoSQL y big data.

Lo irónico es ...

Get 97 cosas que todo ingeniero de datos debe saber now with the O’Reilly learning platform.

O’Reilly members experience books, live events, courses curated by job role, and more from O’Reilly and nearly 200 top publishers.