Skip to Content
El Lago de Grandes Datos de la Empresa
book

El Lago de Grandes Datos de la Empresa

by Alex Gorelik
October 2024
Intermediate to advanced content levelIntermediate to advanced
224 pages
7h 26m
Spanish
O'Reilly Media, Inc.
Book available
Content preview from El Lago de Grandes Datos de la Empresa

Capítulo 4. Poner en marcha un lago de datos

Este trabajo se ha traducido utilizando IA. Agradecemos tus opiniones y comentarios: translation-feedback@oreilly.com

Como se ha comentado en el capítulo anterior, la promesa del lago de datos es almacenar los datos de la empresa de forma que se maximice su disponibilidad y accesibilidad para el análisis y la ciencia de datos. Pero, ¿cuál es la mejor forma de empezar? En este capítulo se analizan los distintos caminos que siguen las empresas para construir un lago de datos.

Apache Hadoop es un proyecto de código abierto que se utiliza con frecuencia para este fin. Aunque existen muchas otras alternativas, especialmente en la nube, los lagos de datos basados en Hadoop ofrecen una buena representación de las ventajas que proporcionan, por lo que vamos a utilizar Hadoop como ejemplo. Empezaremos repasando qué es y algunas de sus ventajas clave para dar soporte a un lago de datos.

El qué y el porqué de Hadoop

Hadoop es una plataforma de almacenamiento y ejecución masivamente paralela que automatiza muchos de los aspectos difíciles de crear un clúster altamente escalable y disponible. Tiene su propio sistema de archivos distribuido, HDFS (aunque algunas distribuciones de Hadoop, como MapR e IBM, proporcionan sus propios sistemas de archivos para sustituir a HDFS). HDFS replica automáticamente los datos en el clúster para lograr un alto paralelismo y disponibilidad. Por ejemplo, si Hadoop utiliza el factor de replicación predeterminado de ...

Become an O’Reilly member and get unlimited access to this title plus top books and audiobooks from O’Reilly and nearly 200 top publishers, thousands of courses curated by job role, 150+ live events each month,
and much more.
Start your free trial

You might also like

El lago de datos en la nube

El lago de datos en la nube

Rukmani Gopalan
Ingeniería del caos de la seguridad

Ingeniería del caos de la seguridad

Kelly Shortridge, Aaron Rinehart

Publisher Resources

ISBN: 9798341600706