
380 12 章 ビッグデータ:スケールを追求
階層の重層化
HDFS や Hadoop とい
ったシステムは、他のシステムを構築するための土台にすぎない。Spark は Hadoop
のライバルでもあるが、HDFS も利用できるので、非常に効率的だ。最近の学生たちは、低水準の MapReduce
ジョブを書くために以前ほど時間を費やさなくなっているが、それは従来よりも抽象化レベルの高いところ
で動作するソフトウェアを使うようになったからだ。
ビッグデータエコシステム全体は、さまざまなシステムから構成されている。その中でも重要なのは、マ
シンの分散ネットワーク上で構造化データをやり取りでき、複数のマシンの RAM とディスクを結合できる
NoSQL データベースである。さらに、こういったシステムは、必要になったときにマシンやリソースを追
加できるように設計されている。こういった柔軟性はあるが、単純な SQL コマンドしかサポートしておら
ず、すべてのコマンドに対応していない。それでも、多くのアプリケーションに十分対応できる。
ビッグデータソフトウェアエコシステムは、本書で説明してきた基礎的なことよりもずっと速いペースで
発展している。実際にビジネスの世界に入るときには、Google 検索と O’Reilly の刊行書籍の一覧を見れば
最新のテクノロジーの動向がわかるはずだ。
12.7 社会的倫理的な問題
規模が大きくなると、深刻なトラブルに見舞われる危険が高くなる。自転車よりも自動車の方が深刻な事
故を引き起こす。そして、自動車事故よりも飛行機事故の方がずっと多くの人々の命を奪う。 ...