18章SQLとビッグデータ

本書の内容のほとんどを占めているのは、MySQLなどのリレーショナルデータベースを使うときのSQL言語のさまざまな機能です。しかし、この10年間にデータを取り巻く環境は大きく変化しており、急速に進化する今日の環境のニーズに応えるためにSQLも変化しています。ほんの数年前までもっぱらリレーショナルデータベースに頼っていた多くの組織が、今やHadoopクラスタ、データレイク、NoSQLデータベースにもデータを保管しています。それと同時に、企業は増え続けるデータから知見を得る方法を見つけ出そうと躍起になっています。そして、このデータが複数の(ひょっとしたらオンサイトとクラウドの両方の)データストアに分散していることが、このタスクを気が遠くなるほど面倒なものにしています。

SQLは何百万人もの人々によって使われており、何千ものアプリケーションに組み込まれているため、このデータを意思決定に役立つ知識にするためにSQLを活用するというのはごく当然のことです。構造化データ、半構造化データ、非構造化データにSQLをアクセスさせるために、この数年間にPresto、Apache Drill、Toad Data Pointなどの新しい種類のツールが登場しています。本章では、そうしたツールの1つであるApache Drillを取り上げ、さまざまなフォーマットでさまざまなサーバーに格納されているデータをまとめて、レポートの作成や解析に利用する方法について説明します。

18.1 Apache Drill

Hadoop、NoSQL、Spark、そしてクラウドベースの分散ファイルシステムに格納されているデータにSQLをアクセスさせるために、さまざまなツールやインターフェイスが開発されてきました。たとえば、Hadoopに格納されたデータに対してクエリを実行できるようにするための最初の試みの1つだったHiveや、さまざまなフォーマットで格納されたデータにSpark内からクエリを実行するためのライブラリであるSpark ...

Get 初めてのSQL 第3版 now with the O’Reilly learning platform.

O’Reilly members experience books, live events, courses curated by job role, and more from O’Reilly and nearly 200 top publishers.