Słowo wstępne
System Spark miał wielu poprzedników, począwszy od MPI (ang. message passing interface) do MapReduce, umożliwiających tworzenie programów wykorzystujących ogromne zasoby rozproszonych systemów obliczeniowych bez konieczności wnikania w zawiłości ich budowy. Potrzeba przetwarzania danych do tego stopnia stymulowała rozwój takich platform, że analizę wielkich zbiorów danych określają możliwości tych systemów. System Spark obiecuje coś więcej — możliwość tworzenia rozproszonych programów w podobny sposób jak zwykłych.
Wzrost popularności systemu Spark zbiegł się z rozwojem ekosystemu danych Pythona (PyData). Zrozumiałe jest więc, że znaczenie interfejsu API tego systemu dla języka Python — PySpark — w ciągu ostatnich kilku lat znacznie ...
Get Zaawansowana analiza danych w PySpark now with the O’Reilly learning platform.
O’Reilly members experience books, live events, courses curated by job role, and more from O’Reilly and nearly 200 top publishers.