Préface
Spark est devenu la norme de facto pour l'analyse de données à grande échelle. J'utilise et j'enseigne Spark depuis sa création il y a neuf ans, et j'ai constaté d'énormes améliorations dans les processus d'extraction, de transformation et de chargement (ETL), le développement d'algorithmes distribués et l'analyse de données à grande échelle. J'ai commencé à utiliser Spark avec Java, mais j'ai constaté que même si le code est assez stable, il faut écrire de longues lignes de code, qui peuvent devenir illisibles. Pour ce livre, j'ai décidé d'utiliser PySpark (une API Python pour Spark) parce qu'il est plus facile d'exprimer la puissance de Spark en Python : le code est court, lisible et facile à maintenir. PySpark est puissant mais simple à utiliser, et tu peux y exprimer n'importe quel algorithme ETL ou distribué avec un simple ensemble de transformations et d'actions.
Pourquoi j'ai écrit ce livre
Ceci est un livre d'introduction à l'analyse de données à l'aide de PySpark. Il se compose d'un ensemble de directives et d'exemples destinés à aider les ingénieurs en logiciels et en données à résoudre les problèmes de données de la manière la plus simple possible. Comme tu le sais, il existe de nombreuses façons de résoudre n'importe quel problème de données : PySpark nous permet d'écrire du code simple pour des problèmes complexes. C'est la devise ...
Become an O’Reilly member and get unlimited access to this title plus top books and audiobooks from O’Reilly and nearly 200 top publishers, thousands of courses curated by job role, 150+ live events each month,
and much more.
Read now
Unlock full access