第9章. Kubernetes上でのデータ分析
この作品はAIを使って翻訳されている。ご意見、ご感想をお待ちしている:translation-feedback@oreilly.com
テクノロジーの進歩とは、私たちがより怠惰になれる能力を手に入れたときである。
ローリアン・キリカ博士
2000年代初頭、Googleは「世界中の情報を整理し、普遍的にアクセス可能で有用なものにする」というパブリックゴールを宣言し、インターネットを魅了した。これは野心的な目標であり、これを達成するには、言葉を換えれば、「コンピュータ・サイエンス」を駆使する必要があった。データの作成速度がますます速くなっていることを考えると、Googleは誰も考えたことのないデータ量の管理方法を発明(そして再発明)する必要があった。アナリティクスと呼ばれるデータ分析を中心とした全く新しいコミュニティ、文化、産業が生まれ、最終的に "ビッグデータ "と呼ばれるようになった。今日、アナリティクスはほとんどすべてのアプリケーションスタックの本格的なメンバーであり、グーグルの問題に追いやられているわけではない。今やアナリティクスは全員の問題であり、一部の専門家に限定されたアートフォームではなく、全員がアナリティクスを機能させる方法を知る必要がある。組織は、分析機能を備えたアプリケーションをデプロイするための、信頼性が高く迅速な方法を必要としている。
本章の冒頭でチリカ博士が皮肉交じりに語っていた怠惰は、理想的な未来を描いている。ペタバイトのデータを分析するために100人のチームが日夜働く代わりに、それを1人と数分に減らすことができたらどうだろう?クラウド・ネイティブなデータ・インフラの運用方法は、そのような輝かしい怠惰を実現するために、私たち全員が目指すべきパスなのだ。
ステートフルなワークロードをKubernetes上に移行するためのいくつかの側面について、ストレージ、データベース、ストリーミングを含めてすでに見てきた。この章では、アナリティクスを見て、全体像を完成させよう。図9-1は、Kubernetesを使用して完全なデータスタックを管理するというロードマップの最後の部分として、データ分析がどのように適合するかを示している。
図9-1. クラウド・ネイティブな仮想データセンター
このアーキテクチャでは、Kubernetesクラスタ内外のリソースにブリッジする外部ネットワーク要件はなくなり、クラウド・ネイティブ・アプリケーションの特注ニーズに対応する単一の仮想データセンターだけが存在する。大きなブロックは、第1章で説明したデータインフラストラクチャのマクロコンポーネントを表し、マイクロサービスではデプロイされたユーザアプリケーションコードが追加されている。
アナリティクス入門
分析ワークロードとそれに伴うインフラ運用は、他のワークロードとは大きく異なる。アナリティクスは、オーケストレーションするための単なるコンテナ化されたシステムではない。前章で検討したデータベースのような典型的なステートフル・アプリケーションは、多くの類似した特徴を持つが、デプロイ後は静的なままか、成長が予測できるほど遅くなる傾向がある。
しかし、分析ワークロードのある側面が、多くの管理者を恐怖に陥れている。データベースのような永続的データストアがギガバイトからテラバイトのストレージを消費するのに対し、分析ボリュームは簡単にペタバイトにまで膨れ上がり、解決すべき全く新しいクラスの問題を作成することになる。これを「ビッグデータ」と呼ぶ理由はない。 ...