Skip to Content
Algoritmos de dados com o Spark
book

Algoritmos de dados com o Spark

by Mahmoud Parsian
April 2025
Intermediate to advanced
438 pages
10h 4m
Portuguese (Portugal, Brazil)
O'Reilly Media, Inc.
Book available
Content preview from Algoritmos de dados com o Spark

Capítulo 2. Transformações em ação

Este trabalho foi traduzido com recurso a IA. Agradecemos o teu feedback e comentários: translation-feedback@oreilly.com

Neste capítulo, exploraremos as transformações mais importantes do Spark (mapeadores e redutores) no contexto dos padrões de design de sumarização de dados e examinaremos como selecionar transformações específicas para problemas específicos.

Como podes ver, para um determinado problema (vamos usar o problema da contagem de bases de ADN) existem várias soluções PySpark possíveis usando diferentes transformações Spark, mas a eficiência destas transformações difere devido à sua implementação e processos de baralhamento (quando o agrupamento de valores por chave acontece). O problema da contagem de bases de ADN é muito semelhante ao problema clássico da contagem de palavras (encontrar a frequência de palavras únicas num conjunto de ficheiros/documentos), com a diferença de que na contagem de bases de ADN encontra as frequências das letras de ADN (A, T, C,G).

Escolhi este problema porque, ao resolvê-lo, vamos aprender a resumir dados, condensando uma grande quantidade de informação (neste caso, cadeias/sequências de dados de ADN) num conjunto muito mais pequeno de informação útil (a frequência das letras de ADN).

Este capítulo fornece três soluções completas de ponta a ponta em PySpark, usando diferentes mapeadores e reduções para resolver o problema de contagem de bases de DNA. Discutiremos as diferenças de desempenho entre elas ...

Become an O’Reilly member and get unlimited access to this title plus top books and audiobooks from O’Reilly and nearly 200 top publishers, thousands of courses curated by job role, 150+ live events each month,
and much more.
Start your free trial

You might also like

Escala o aprendizado de máquina com o Spark

Escala o aprendizado de máquina com o Spark

Adi Polak

Publisher Resources

ISBN: 9798341642799Supplemental Content