Capítulo 4. Poner en marcha un lago de datos
Este trabajo se ha traducido utilizando IA. Agradecemos tus opiniones y comentarios: translation-feedback@oreilly.com
Como se ha comentado en el capítulo anterior, la promesa del lago de datos es almacenar los datos de la empresa de forma que se maximice su disponibilidad y accesibilidad para el análisis y la ciencia de datos. Pero, ¿cuál es la mejor forma de empezar? En este capítulo se analizan los distintos caminos que siguen las empresas para construir un lago de datos.
Apache Hadoop es un proyecto de código abierto que se utiliza con frecuencia para este fin. Aunque existen muchas otras alternativas, especialmente en la nube, los lagos de datos basados en Hadoop ofrecen una buena representación de las ventajas que proporcionan, por lo que vamos a utilizar Hadoop como ejemplo. Empezaremos repasando qué es y algunas de sus ventajas clave para dar soporte a un lago de datos.
El qué y el porqué de Hadoop
Hadoop es una plataforma de almacenamiento y ejecución masivamente paralela que automatiza muchos de los aspectos difíciles de crear un clúster altamente escalable y disponible. Tiene su propio sistema de archivos distribuido, HDFS (aunque algunas distribuciones de Hadoop, como MapR e IBM, proporcionan sus propios sistemas de archivos para sustituir a HDFS). HDFS replica automáticamente los datos en el clúster para lograr un alto paralelismo y disponibilidad. Por ejemplo, si Hadoop utiliza el factor de replicación predeterminado de ...