CAPÍTULO 24

MapReduce

O futuro já chegou. Só não foi distribuído igualmente ainda.

—William Gibson

MapReduce é um modelo de programação para realizar processamento paralelo em grandes conjuntos de dados. Embora seja uma técnica poderosa, sua base é relativamente simples.

Imagine que temos uma coleção de itens que gostaríamos de processar. Por exemplo, os itens podem ser logs de web site, textos de livros variados, arquivos de imagens ou qualquer outra coisa. Uma versão básica do algoritmo MapReduce consiste dos seguintes passos:

1. Use uma função mapper para transformar cada item em zero ou mais pares chave-valor. (É chamado com frequência de função map, porém já existe uma função Python chamada map e não devemos confundir as duas.)

2. Junte ...

Get Data Science do Zero now with the O’Reilly learning platform.

O’Reilly members experience books, live events, courses curated by job role, and more from O’Reilly and nearly 200 top publishers.