Rozdział 2. Wprowadzenie do analizy danych za pomocą PySpark

Python jest najczęściej używanym językiem w analizie danych. Perspektywa wykonywania obliczeń statystycznych i tworzenia aplikacji internetowych przy użyciu tego języka zapoczątkowała wzrost jego popularności w 2010 r. Zaowocowało to powstaniem rozwojowego ekosystemu narzędzi, często określanego mianem PyData, i aktywnej społeczności użytkowników zajmujących się analizą danych. Stąd wynika również duża popularność interfejsu PySpark. Naukowcy zajmujący się analizą danych, znający język Python, mogą przy wsparciu szerokiej rzeszy innych użytkowników skutecznie stosować rozproszone przetwarzanie danych przy użyciu systemu Spark. Z tego samego powodu zdecydowaliśmy się wykorzystać interfejs ...

Get Zaawansowana analiza danych w PySpark now with the O’Reilly learning platform.

O’Reilly members experience books, live events, courses curated by job role, and more from O’Reilly and nearly 200 top publishers.