Skip to Content
Algoritmos de dados com o Spark
book

Algoritmos de dados com o Spark

by Mahmoud Parsian
April 2025
Intermediate to advanced
438 pages
10h 4m
Portuguese (Portugal, Brazil)
O'Reilly Media, Inc.
Book available
Content preview from Algoritmos de dados com o Spark

Capítulo 1. Introdução ao Spark e ao PySpark

Este trabalho foi traduzido com recurso a IA. Agradecemos o teu feedback e comentários: translation-feedback@oreilly.com

O Spark é um poderoso motor de análise para processamento de dados em grande escala que visa a velocidade, a facilidade de utilização e a extensibilidade para aplicações de grandes volumes de dados. É uma tecnologia comprovada e amplamente adoptada, utilizada por muitas empresas que lidam com grandes volumes de dados todos os dias. Embora a linguagem "nativa" do Spark seja Scala (a maior parte do Spark é desenvolvida em Scala), também fornece APIs de alto nível em Java, Python e R.

Neste livro, usaremos Python via PySpark, uma API que expõe o modelo de programação do Spark para Python. Como o Python é a linguagem de programação mais acessível e a API poderosa e expressiva do Spark, a simplicidade do PySpark torna-o a melhor escolha para nós. O PySpark é uma interface para o Spark na linguagem de programação Python que fornece os dois recursos importantes a seguir:

  • Permite-nos escrever aplicações Spark utilizando APIs Python.

  • Fornece o shell PySpark para analisar dados interactivamente numambiente distribuído.

O objetivo deste capítulo é apresentar o PySpark como o principal componente do ecossistema Spark e mostrar-te que pode ser utilizado eficazmente para tarefas de grandes volumes de dados, como operações ETL, indexação de milhares de milhões de documentos, ingestão de milhões de genomas, aprendizagem automática, ...

Become an O’Reilly member and get unlimited access to this title plus top books and audiobooks from O’Reilly and nearly 200 top publishers, thousands of courses curated by job role, 150+ live events each month,
and much more.
Start your free trial

You might also like

Escala o aprendizado de máquina com o Spark

Escala o aprendizado de máquina com o Spark

Adi Polak

Publisher Resources

ISBN: 9798341642799Supplemental Content