第10章. マシンラーニングとその他の新たなユースケース
この作品はAIを使って翻訳されている。ご意見、ご感想をお待ちしている:translation-feedback@oreilly.com
これまでの章では、Kubernetesを中心に、データベース、ストリーミング・プラットフォーム、分析エンジンといった従来のデータインフラを取り上げた。これからは、特にAIとMLに関して、クラウド・ネイティブを目指すプロジェクトやコミュニティを探求し、その先を見据える番だ。
複数の矢印が同じ方向を向き始めたら、それは注目に値する。データインフラにおける方向性の矢印はすべて、相互に関連するいくつかのトレンドに支えられたKubernetesへの収束という全体的なマクロトレンドを示している:
GPUのような特定のハードウェアを活用するものも含め、計算集約的なAI/MLワークロードを管理するための一般的なスタックが登場している。
共通のデータ形式は、コンピューティングリソース、ネットワークリソース、ストレージリソース間でのデータの効率的な移動を促進するのに役立っている。
オブジェクトストレージは、データインフラの一般的な永続化レイヤーになりつつある。
この章では、このようなトレンドを体現するいくつかの新しいテクノロジー、それらが可能にするユースケース、そしてそれらがコンピューティング、ネットワーク、ストレージといった貴重なリソースのさらなる管理にどのように貢献するかを見ていく。この章では、MLとデータ活用のさまざまな側面に触れるいくつかのプロジェクトを選んだ。各プロジェクトに携わっているエンジニアから直接話を聞き、それらがクラウド・ネイティブ・データ・スタックにどのように適合しているのか、その詳細を紹介する。ここで紹介したこと以外にも、興味のあることを探求する旅を続けることを強くお勧めする。好奇心の赴くままに、Kubernetesの新しいユースケースをサポートするコミュニティに貢献しよう。
クラウドネイティブAI/MLスタック
第9章で説明したように、Kubernetes上でのアナリティクス、AI、MLは、より詳細な検討に値するトピックだ。データの世界におけるこの専門分野に馴染みがないのであれば、リアルタイムでデータ駆動型の意思決定をスケールで生み出す能力を高めるエキサイティングな領域だ。核となるアルゴリズムの多くは何十年も前から存在しているが、この仕事の性質はここ数年で急速に変化している。専門職としてのデータ・サイエンスは、伝統的にバックオフィスに追いやられており、大量の過去のデータから意味を発見し、未来を予測するためのインサイトを探っていた。データサイエンティストがエンドユーザのアプリケーションに直接関与することはほとんどなく、彼らの仕事はユーザ向けのアプリケーションから切り離されていた。
この状況は、データエンジニアという役割の出現によって変わり始めた。データエンジニアは、データサイエンスを生産化し、分野間のサイロ化を解消するための処理エンジンとパイプラインを構築する。データインフラにおける新興分野にありがちなことだが、最大手で最も声の大きい組織がデータエンジニアリングのテンポを作り、彼らのツールやメソッドが主流となった。
アプリケーションにおけるデータのリアルタイム性は、データベースやストリーミング・プラットフォームだけに任せるわけにはいかない。データ・サイエンティストによって構築された製品は、アプリケーションにおいてその効果を最大限に発揮するために、エンドユーザにより近い存在でなければならない。多くの組織は、これを問題であると同時にチャンスであると認識している。どうすれば、データサイエンスをアプリケーションデプロイのもう一つのニアリアルタイムコンポーネントにすることができるだろうか?困難に直面すると、コミュニティは新しいプロジェクトを立ち上げ、新しい分野を作成する。その結果、Kubernetes上のデータインフラには、永続性、ストリーミング、アナリティクスといった従来のカテゴリーと並んで、新しいカテゴリーが生まれつつある。この新しいスタックは、AIやMLに特化したデータのリアルタイム配信をサポートするツールで構成されている。 ...