
Spark 版本及發佈 |
7
2011 年 AMPLab 開始開發 Spark 的高階元件,例如 Shark
1
(Hive on Spark)和 Spark
串流元件。這些元件有時候被稱為柏克萊資料分析堆(Berkeley Data Analytics Stack,
BDAS)(
http://amplab.cs.berkeley.edu/software/
)。
Spark 專案在 2010 年 3 月首次開放原始碼,必且在 2013 年 6 月提交至 Apache 軟體基金
會。現在已是 Apache 的頂級專案。
Spark 版本及發佈
Spark 自建立起即成為一個非常活耀的專案並擁有廣大的社群。貢獻者人數也隨著每次
版本的發佈而增加。Spark1.0 版即擁有超過 100 位貢獻者。隨著專案活耀程度的快速成
長,社群也持續地定期發佈 Spark 的更新版本。Spark1.0 版在 2014 年 5 月發佈。這本書
專注於 Spark1.1.0 及其之後版本(Spark1.3 版)的功能,雖然多數的觀念與範例可以在
更早之前的版本中正常運作。
Spark 儲存層級
Spark 可以從 Hadoop 分散式資料系統(HDFS)或是其他 Hadoop API 所支援的儲存系
統(包含你的本機檔案系統、Amazon S3、Cassandra、Hive、HBase 等)中建立一個
分散式的資料集。請記住,Spark 並不需要 Hadoop;它只是支援了 Hadoop API 所實現
的檔案系統。Spark