第1章 導入部 とAIシステムの概要
この作品はAIを使って翻訳されている。ご意見、ご感想をお待ちしている:translation-feedback@oreilly.com
2024年後半、中国の小さなスタートアップDeepSeek.AIは、当時最新鋭のNVIDIA GPUを利用せずに最先端の大規模言語モデル(LLM)をトレーニングしたことで、 AIコミュニティを驚かせた。輸出規制のため、DeepSeekのエンジニアはNVIDIAの最高峰GPUであるBlackwell(B200、B300など)やHopper(H100、H200など)を入手できなかった。そこで彼らは、NVIDIA H800 GPUなど、当時現地で入手可能で輸出規制に適合する代替品に頼った。彼らはカスタマイズカーネルやモデル蒸留といった高度な最適化テクニックを用いて、性能が劣るこれらのGPUから最大限の性能を引き出した。
こうした制約にもかかわらず、DeepSeek.AIはDeepSeek-R1モデルをトレーニングし、当時最高性能のNVIDIAチップでトレーニングされた最先端モデルに匹敵する推論能力を達成した。この事例は、AIシステムの性能エンジニアリングに熟達した実践者や研究者が、制約の有無にかかわらず利用可能なハードウェアを最大限活用できることをアンダースコアしている。
例えばDeepSeekのエンジニアは、 のコミュニケーション帯域幅を希少なリソースと捉え、ネットワーク経由の1バイト単位まで最適化することで、このインフラでは不可能とされた成果を達成した。帯域幅制限のある相互接続で結ばれた数千台の制約付きGPUへスケールアウトする際、彼らは独自のソフトウェアとアルゴリズム最適化でこれらの制約を克服した。
DeepSeekのアプローチを、米国や欧州の大規模AI研究機関が取る「力任せ」の手法と対比してみよう。これらの機関は、より大規模な計算クラスターとより巨大なモデルの追求を続けている。モデルのサイズは、数百万から数十億、そして今や数兆のパラメータへと爆発的に拡大した。規模が10倍になるごとに質的に新たな能力が解き放たれる一方で、膨大なコストとリソースを必要とする。
例えば、 OpenAIのGPT-4(2023年)のトレーニング費用は約1億ドルと推定され、GoogleのGemini Ultra(2023年末)のトレーニング費用は驚異的な約1億9100万ドルと見積もられている。これは、モデルが規模とコストを増大させる中で、今後リソース効率化が不可欠であることを示している。
DeepSeekは、同社の モデルDeepSeek-R1が600万ドル未満の計算コストでトレーニングされたと主張している。これはGPT-4やGemini Ultraといったモデルと比べて順序の桁違いに低い。同時にDeepSeek-R1は、桁違いの資金を投じた競合モデルと性能が一致する。
では、この600万ドルという主張の妥当性や、その内訳(例えば単一のトレーニング実行のみか)、除外項目(実験やモデル開発パイプラインなど)について疑問を呈している。しかしこの発表は米国金融市場を一時的に震撼させ、NVIDIA株はこのニュースを受けて1日で約17%下落した。これはDeepSeekの効率性技術が将来的にNVIDIAハードウェアの需要を減らすのではないかという懸念が原因だった。この市場反応はやや過剰反応であり、NVIDIA株はその後回復したものの、AI効率性のブレークスルーが世界金融市場に与える重大な影響力を示している。
Become an O’Reilly member and get unlimited access to this title plus top books and audiobooks from O’Reilly and nearly 200 top publishers, thousands of courses curated by job role, 150+ live events each month,
and much more.
Read now
Unlock full access