
208 7 章 数理モデル
このような分割を強制する理由は明らかだろう。学生だって、あらかじめ模範解答を見ることが認められ
れば、何を覚えたらよいかがわかるので、試験の成績が大幅に上がるだろう。しかし、それでは試験は学生
が実
際に勉強した時間を反映するものにはならない。訓練データとテストデータを分けておけば、検証で
は、モデルが理解していることについての重要なポイントを測定できる。そして、モデルが安定するまで、
最終的なテストデータを封印しておけば、テストデータの癖が繰り返しテストを行うことを通じてモデルに
反映するのを防げる。テストデータは、標本外データによる最終モデルの検証のために使われる。
最初にデータを分割するときには、望ましくないものを作ったり、望ましいものを壊したりしないように
注意しなければならない。与えられた順序で単純にファイルを分割するのは危険だ。訓練データと検証デー
タで構造的な違いがあるようでは、モデルは本来得られるはずの性能を獲得できない。
しかし、将来の株価を予測するモデルを構築している場合について考えてみよう。時間的に最初の方から
60 % のデータをすべて選ぶのではなく、履歴データ全体の 60 % を無作為に選んで訓練データとするのでは
危険だ。なぜだろうか。モデルが訓練データから株式市場の日々の変動を「学習」したとして、得られた知
見を使って同じ時期の他の株式の値動きを予測したらどうなるかを考えてみよう。このモデルはテストでは
すばらしい成績を残すのに、実際の予測ではうまくいかないだろう。正しいサンプリング技法にはかなり微 ...