Skip to Content
El Lago de Grandes Datos de la Empresa
book

El Lago de Grandes Datos de la Empresa

by Alex Gorelik
October 2024
Intermediate to advanced content levelIntermediate to advanced
224 pages
7h 26m
Spanish
O'Reilly Media, Inc.
Book available
Content preview from El Lago de Grandes Datos de la Empresa

Capítulo 3. Introducción al Big Data y la Ciencia de Datos

Este trabajo se ha traducido utilizando IA. Agradecemos tus opiniones y comentarios: translation-feedback@oreilly.com

El uso popular de big data se remonta a un único trabajo de investigación publicado en 2004: "MapReduce: Simplified Data Processing on Large Clusters", de Jeffrey Dean y Sanjay Ghemawat. En este documento de 13 páginas (incluido el código fuente), dos ingenieros de Google explicaban cómo la empresa había encontrado la forma de reducir sus gigantescas necesidades de indexación a unos requisitos de procesamiento razonables mediante un tipo de algoritmo radicalmente nuevo que se ejecuta en clústeres masivamente paralelos. La idea básica de MapReduce es dividir el trabajo en mapeadores que puedan ejecutarse en paralelo y reductores que tomen la salida de los mapeadores y la procesen. La primera operación se denomina "mapeo" porque toma cada elemento de los datos de entrada y "mapea" una función sobre él, dejando la salida para que la maneje el reductor.

Por ejemplo, para contar las palabras de todos los documentos de todos los nodos de un clúster, suponiendo que cada documento esté almacenado en un único nodo, podemos hacer que miles de mapeadores, ejecutándose en paralelo, produzcan una lista de documentos y el recuento de palabras de cada uno, y envíen esa lista al reductor. El reductor creará entonces una lista maestra de todos los documentos con su recuento de palabras y calculará el recuento total de palabras ...

Become an O’Reilly member and get unlimited access to this title plus top books and audiobooks from O’Reilly and nearly 200 top publishers, thousands of courses curated by job role, 150+ live events each month,
and much more.
Start your free trial

You might also like

El lago de datos en la nube

El lago de datos en la nube

Rukmani Gopalan
Ingeniería del caos de la seguridad

Ingeniería del caos de la seguridad

Kelly Shortridge, Aaron Rinehart

Publisher Resources

ISBN: 9798341600706