Capítulo 3. Introducción al Big Data y la Ciencia de Datos

Este trabajo se ha traducido utilizando IA. Agradecemos tus opiniones y comentarios: translation-feedback@oreilly.com

El uso popular de big data se remonta a un único trabajo de investigación publicado en 2004: "MapReduce: Simplified Data Processing on Large Clusters", de Jeffrey Dean y Sanjay Ghemawat. En este documento de 13 páginas (incluido el código fuente), dos ingenieros de Google explicaban cómo la empresa había encontrado la forma de reducir sus gigantescas necesidades de indexación a unos requisitos de procesamiento razonables mediante un tipo de algoritmo radicalmente nuevo que se ejecuta en clústeres masivamente paralelos. La idea básica de MapReduce es dividir el trabajo en mapeadores que puedan ejecutarse en paralelo y reductores que tomen la salida de los mapeadores y la procesen. La primera operación se denomina "mapeo" porque toma cada elemento de los datos de entrada y "mapea" una función sobre él, dejando la salida para que la maneje el reductor.

Por ejemplo, para contar las palabras de todos los documentos de todos los nodos de un clúster, suponiendo que cada documento esté almacenado en un único nodo, podemos hacer que miles de mapeadores, ejecutándose en paralelo, produzcan una lista de documentos y el recuento de palabras de cada uno, y envíen esa lista al reductor. El reductor creará entonces una lista maestra de todos los documentos con su recuento de palabras y calculará el recuento total de palabras ...

Get El Lago de Grandes Datos de la Empresa now with the O’Reilly learning platform.

O’Reilly members experience books, live events, courses curated by job role, and more from O’Reilly and nearly 200 top publishers.