Capítulo 5. El lago de datos

Este trabajo se ha traducido utilizando IA. Agradecemos tus opiniones y comentarios: translation-feedback@oreilly.com

Los big data empezaron a aparecer en volúmenes sin precedentes a principios de la década de 2010, debido al aumento de las fuentes que generan datos semiestructurados y no estructurados, como sensores, vídeos y redes sociales. Los datos semiestructurados y no estructurados contienen una cantidad fenomenal de valor: ¡piensa en la información contenida en los correos electrónicos de los clientes durante años! Sin embargo, los almacenes de datos relacionales de entonces sólo podían manejar datos estructurados. También tenían problemas para manejar grandes cantidades de datos o datos que debían ser ingestados con frecuencia, por lo que no eran una opción para almacenar este tipo de datos. Esto obligó a la industria a idear una solución: los lagos de datos. Los lagos de datos pueden manejar fácilmente datos semiestructurados y no estructurados y gestionar datos que se ingieren con frecuencia.

Hace años, hablé con analistas de una gran cadena minorista que querían ingerir datos de Twitter para saber qué pensaban los clientes de sus tiendas. Sabían que los clientes dudarían en plantear sus quejas a los empleados de la tienda, pero se apresurarían a ponerlas en Twitter. Les ayudé a introducir los datos de Twitter en un lago de datos y a evaluar el sentimiento de los comentarios de los clientes, clasificándolos como positivos, neutros o negativos. ...

Get Descifrar las arquitecturas de datos now with the O’Reilly learning platform.

O’Reilly members experience books, live events, courses curated by job role, and more from O’Reilly and nearly 200 top publishers.