Capítulo 2. Transformações em ação
Este trabalho foi traduzido com recurso a IA. Agradecemos o teu feedback e comentários: translation-feedback@oreilly.com
Neste capítulo, exploraremos as transformações mais importantes do Spark (mapeadores e redutores) no contexto dos padrões de design de sumarização de dados e examinaremos como selecionar transformações específicas para problemas específicos.
Como podes ver, para um determinado problema (vamos usar o problema da contagem de bases de ADN) existem várias soluções PySpark possíveis usando diferentes transformações Spark, mas a eficiência destas transformações difere devido à sua implementação e processos de baralhamento (quando o agrupamento de valores por chave acontece). O problema da contagem de bases de ADN é muito semelhante ao problema clássico da contagem de palavras (encontrar a frequência de palavras únicas num conjunto de ficheiros/documentos), com a diferença de que na contagem de bases de ADN encontra as frequências das letras de ADN (A, T, C,G).
Escolhi este problema porque, ao resolvê-lo, vamos aprender a resumir dados, condensando uma grande quantidade de informação (neste caso, cadeias/sequências de dados de ADN) num conjunto muito mais pequeno de informação útil (a frequência das letras de ADN).
Este capítulo fornece três soluções completas de ponta a ponta em PySpark, usando diferentes mapeadores e reduções para resolver o problema de contagem de bases de DNA. Discutiremos as diferenças de desempenho entre elas ...