Rozdział 3. API strukturalne Apache Spark
W tym rozdziale omówimy podstawowe powody, dla których dodano strukturę do Apache Spark. Ponadto wyjaśnimy, w jaki sposób doprowadziły one do powstania API wysokiego poziomu (DataFrame i Dataset), a także jak przebiegało ujednolicenie komponentów wspomnianych API w wydaniu Spark 2.x. Zajmiemy się również silnikiem Spark SQL, który się za nimi kryje.
Gdy we wczesnych wydaniach Sparka 1.x pojawił się silnik Spark SQL (https://spark.apache.org/releases/spark-release-1-1-0.html), a w wersji 1.3 — struktura DataFrame (https://databricks. com/blog/2015/02/02/an-introduction-to-json-support-in-spark-sql.html) będąca następczynią SchemaRDD (https://spark.apache.org/docs/1.1.0/api/java/org/apache/spark/sql/SchemaRDD.html ...
Get Spark now with the O’Reilly learning platform.
O’Reilly members experience books, live events, courses curated by job role, and more from O’Reilly and nearly 200 top publishers.