Skip to Content
データおよび機械学習プラットフォームのアーキテクト
book

データおよび機械学習プラットフォームのアーキテクト

by Marco Tranquillin, Valliappa Lakshmanan, Firat Tekiner
March 2025
Beginner to intermediate
362 pages
5h 20m
Japanese
O'Reilly Media, Inc.
Content preview from データおよび機械学習プラットフォームのアーキテクト

第5章 データレイクの設計 データレイクをアーキテクトする

この作品はAIを使って翻訳されている。ご意見、ご感想をお待ちしている:translation-feedback@oreilly.com

データレイク はデータプラットフォームの一部であり、組織全体から生の、管理されていないデータを取り込み、Apacheエコシステムの計算ツールをサポートする。この章では、最新のデータプラットフォームを設計する際に重要なこの概念について詳しく説明する。この章を通して読むように、クラウドはその上に実装できる様々なユースケースを後押しすることができる。

まず、なぜ基本的な計算しかサポートしない、管理されていない生のデータをストアしたいのか、その理由を説明する。その後、アーキテクチャ設計とクラウドでの実装の詳細について説明する。APIやコネクターを通じて他のソリューションと統合することで、データレイク内のデータをより目的に合ったものにすることができる。最後に、データサイエンス・ノートブックを活用することで、組織内のデータの分析と実験をスピードアップする、ごく一般的な方法を俯瞰してみよう。

データレイクとクラウド-完璧な結婚

データは、組織がより良い意思決定をより迅速に行うのに役立つ。データはアプリケーションからセキュリティに至るまで、あらゆるものの中心であり、データが増えるということは、処理能力が必要になるということであり、クラウド 。

オンプレミス・データレイクの課題

組織は、非構造化データ(画像、ビデオ、テキスト、ログ、バイナリファイル、ウェブコンテンツ)を含むあらゆるタイプのデータをストアする場所を必要としている。これが、企業がデータレイクを採用した主な理由である。初期化当初、企業はデータレイクは純粋な生のストレージに過ぎないと考えていた。

ビジネス部門は、IT部門が保存しているデータを単に保存するのではなく、そこから洞察や価値を引き出したいと考えていた。Hadoop のエコシステムが進化したおかげで、データレイクは、ビッグデータ分析が可能な組織が単なるストレージのオフロードという概念を超えることを可能にした。データレイクは、高度なアナリティクスとML機能を手の届くところにもたらした。Hadoopと関連テクノロジーは、2010年代にデータレイクの大規模な採用を開始した。

しかし企業は、TCO、スケーラビリティ、ガバナンス、アジャイルにまつわる欠点から、データレイクへの取り組みから十分な投資対効果を得ようと苦闘してきた。オンプレミスのデータレイクを管理するためのリソースの使用率と全体的なコストは、管理しきれなくなる可能性がある。リソース集約的なデータとアナリティクスの処理は、しばしばSLAの未達につながる。データガバナンスとセキュリティの問題は、コンプライアンスの懸念につながる。リソースのプロビジョニングに時間がかかるため、アナリティクスの実験が遅れる。

2025年までに、組織のデータの80%は非構造化データになると予測される中、オンプレミス( )の世界では、もはや適切な環境を手頃な価格で提供することはできない。第2章で見たように、クラウド・ソリューションによって、企業はまずTCOを削減し、次にイノベーションのプラットフォームを構築することができる。

クラウドデータレイクの利点

クラウド のパラダイムは、データレイクにとって非常に有益である:

  • すべてのデータを、高価で常時稼働しているHadoop分散ファイルシステム(HDFS)クラスタ にストアする必要はない。オブジェクト・ストレージ・ソリューション(AWS ...

Become an O’Reilly member and get unlimited access to this title plus top books and audiobooks from O’Reilly and nearly 200 top publishers, thousands of courses curated by job role, 150+ live events each month,
and much more.

Read now

Unlock full access

More than 5,000 organizations count on O’Reilly

AirBnbBlueOriginElectronic ArtsHomeDepotNasdaqRakutenTata Consultancy Services

QuotationMarkO’Reilly covers everything we've got, with content to help us build a world-class technology community, upgrade the capabilities and competencies of our teams, and improve overall team performance as well as their engagement.
Julian F.
Head of Cybersecurity
QuotationMarkI wanted to learn C and C++, but it didn't click for me until I picked up an O'Reilly book. When I went on the O’Reilly platform, I was astonished to find all the books there, plus live events and sandboxes so you could play around with the technology.
Addison B.
Field Engineer
QuotationMarkI’ve been on the O’Reilly platform for more than eight years. I use a couple of learning platforms, but I'm on O'Reilly more than anybody else. When you're there, you start learning. I'm never disappointed.
Amir M.
Data Platform Tech Lead
QuotationMarkI'm always learning. So when I got on to O'Reilly, I was like a kid in a candy store. There are playlists. There are answers. There's on-demand training. It's worth its weight in gold, in terms of what it allows me to do.
Mark W.
Embedded Software Engineer

You might also like

クラウドアプリケーションアーキテクチャパターン

クラウドアプリケーションアーキテクチャパターン

Kyle Brown, Bobby Woolf, Joseph Yoder
ユーザーストーリーマッピング

ユーザーストーリーマッピング

Jeff Patton, 川口 恭伸, 長尾 高弘

Publisher Resources

ISBN: 9798341624719