第6章. RとPythonによるモデリングの応用と評価
この作品はAIを使って翻訳されている。ご意見、ご感想をお待ちしている:translation-feedback@oreilly.com
データを視覚化し、理解し、前処理を行う探索的データ分析の綿密なプロセスの後、我々はデータサイエンスのライフサイクルで最も重要な段階の一つであるモデリング段階に移行する。この段階は、理論的な知識と実践的な応用が出会う場所である。EDAから得られた洞察を活用して、データサイエンティストは未知の結果を予測または分類するモデルを選択、設計、訓練する。クリーニングされ、変換されたデータをアルゴリズムに送り込み、生の情報を実用的な洞察に変える段階である。モデリング段階をより深く掘り下げながら、モデルが正確でインタプリタブルであることを保証するために、様々なアルゴリズム、テクニック、ベストプラクティスを探求していく。
モデリングのステップ
モデリングの段階に深く入る前に、モデリングの目的を考えてみよう。モデリングは、新しい未知のデータに対して正確な予測や分類を行うために、データを使って予測モデルを構築し、トレーニングすることに焦点を当てる。モデルには教師あり、教師なしがあるが、このセクションでは両方を取り上げる。
モデルの選択とトレーニング
モデルの選択とトレーニングの最初のステップの一つは、アルゴリズムを選択することである。アルゴリズムとは、、コンピュータ・プログラムがデータからパターンや関係を学習し、その学習に基づいて予測や決定を行うために従う、明確に定義された規則や手順のセットである。マシン学習アルゴリズムは、入力データ(学習データ)を分析してパターンや特徴を特定し、その理解を応用して新しい未見のデータに対して予測や分類を行う。例えば、教師あり学習では、アルゴリズムは入力(特徴)から出力(ラベル)へのマッピングを、予測と実際の結果の誤差を最小化することによって学習する。一般的な 機械学習アルゴリズムには、決定木、線形回帰、ニューラルネットワーク、サポートベクターマシン(SVM)などがある。あなたが解決しようとする問題(例えば、連続的またはカテゴリー的な結果の予測)とデータの特徴に基づいて選択すべきである。
アルゴリズムの例としては、 決定木や線形回帰がある。決定木はグラフィカルな表現であり、決定とその潜在的な結果を木のような構造でモデル化するマシン学習アルゴリズムである。分類や回帰のタスクに使われ、予測や決定を行うために、特徴条件付きに基づいてデータをサブセットに分割する。もう一つの例は線形回帰である。線形回帰は 、観測されたデータに一次方程式を当てはめることで、従属変数と1つ以上の独立変数の関係をモデル化するために使われる統計手法であり、マシン学習アルゴリズムである。主に連続的な数値結果の予測や変数間の線形関係の理解に使われる。
アルゴリズムが選択されると、データに対するアルゴリズムの適用に基づいてモデルが作成される。これは、トレーニングとテストの2つのステップで行われる。トレーニングとテストのステップは、モデリングプロセスの基本である。訓練とテストは、モデルが訓練されたデータに適合するだけでなく、新しい未知のデータに対してもうまく一般化することを保証する。トレーニングでは、選択したアルゴリズムにトレーニングデータを投入する。次にアルゴリズムは、予測値と実際の結果の差を最小化するように内部パラメータを調整することで、データから学習する。このステップの目標は、訓練データに最も適合するモデル・パラメータを発見することである。予測値と実際の結果の差は、 ...
Become an O’Reilly member and get unlimited access to this title plus top books and audiobooks from O’Reilly and nearly 200 top publishers, thousands of courses curated by job role, 150+ live events each month,
and much more.
Read now
Unlock full access