Capítulo 1. Introdução ao Spark e ao PySpark
Este trabalho foi traduzido com recurso a IA. Agradecemos o teu feedback e comentários: translation-feedback@oreilly.com
O Spark é um poderoso motor de análise para processamento de dados em grande escala que visa a velocidade, a facilidade de utilização e a extensibilidade para aplicações de grandes volumes de dados. É uma tecnologia comprovada e amplamente adoptada, utilizada por muitas empresas que lidam com grandes volumes de dados todos os dias. Embora a linguagem "nativa" do Spark seja Scala (a maior parte do Spark é desenvolvida em Scala), também fornece APIs de alto nível em Java, Python e R.
Neste livro, usaremos Python via PySpark, uma API que expõe o modelo de programação do Spark para Python. Como o Python é a linguagem de programação mais acessível e a API poderosa e expressiva do Spark, a simplicidade do PySpark torna-o a melhor escolha para nós. O PySpark é uma interface para o Spark na linguagem de programação Python que fornece os dois recursos importantes a seguir:
-
Permite-nos escrever aplicações Spark utilizando APIs Python.
-
Fornece o shell PySpark para analisar dados interactivamente numambiente distribuído.
O objetivo deste capítulo é apresentar o PySpark como o principal componente do ecossistema Spark e mostrar-te que pode ser utilizado eficazmente para tarefas de grandes volumes de dados, como operações ETL, indexação de milhares de milhões de documentos, ingestão de milhões de genomas, aprendizagem automática, ...