12章時系列モデルの当てはめと提供の性能に関する考慮事項
機械学習や統計分析に関する文献では、焦点は圧倒的にモデルの精度に関する性能に当てられています。精度は通常、モデル評価で一番に考慮すべき事項ですが、巨大なデータセットや、クライアントアプリケーションの大集団にサービスを提供するために広く配備されたモデルに対峙する場合には、計算性能の考慮も非常に重要です。
時系列データセットがあまりに巨大化すると、利用可能な計算資源に対する要求が厳しくなり過ぎるために、分析がまったく、もしくはまともにできなくなることがあります。そのような場合には、多くの組織は、次のような選択肢を考えます。
- 計算資源を拡大する(高額な上に経済的、環境的に無駄遣いであることが多い)。
- プロジェクトの出来が悪くなる(ハイパーパラメータの調整が不十分、データが不足、など)。
- プロジェクトを中止する†1。
[†1] ええ、現実世界では頻繁に起きていることです。
上記の選択肢はいずれも、特に新しいデータセットや解析技法を使い始めたばかりという状況では、満足のいくものではありません。自分の失敗の原因が、データが悪いせいなのか、問題が難し過ぎたのか、資源不足なのかがわからなければ、フラストレーションが溜まっていきます。本章では、解析に非常に高い計算資源が要求されたり、データセットが巨大な場合に、回避策を見つけて選択肢を広げたいと思います。
本章は、特定のモデルを使った訓練や推定に要する計算資源を減らすには、どんな配慮をすればよいか、ということを案内する手引きです。たいていの場合、この質問は、与えられたデータセット、利用可能な資源、精度と速度の目標に左右されます。本章で詳述する配慮の端々にもこの現実が反映されていますが、本章で提唱する内容が、読者が直面する問題の一部分を解決し、残り部分の対応策を講じる際のインスピレーションの元になることを望んでいます。本章で取り上げる考慮事項は、分析とモデリングをまず一通りやり終えた後に考えることであり、問題に最初に取り組む際に優先すべき事項ではありません。しかし、本番環境に移行する際や、小規模な研究プロジェクトから大規模なプロジェクトに拡張するような場合には、これらの考慮事項を頻繁に確認する必要があります。 ...
Get 実践 時系列解析 ―統計と機械学習による予測 now with the O’Reilly learning platform.
O’Reilly members experience books, live events, courses curated by job role, and more from O’Reilly and nearly 200 top publishers.