第27章. 回帰
この作品はAIを使って翻訳されている。ご意見、ご感想をお待ちしている:translation-feedback@oreilly.com
回帰 は、分類の論理的拡張である。単に値のセットから1つの値を予測するのではなく、回帰は特徴(数値として表現される)のセットから実数(または連続変数)を予測する行為である。
回帰は分類よりも難しいかもしれない、なぜなら数学的な観点からは、可能な出力値が無限にあるからである。さらに我々は、正確さとは対照的に、予測値と真値の間のエラーのメトリックを最適化することを目的とする。それを除けば、回帰と分類はかなり似ている。このため、回帰にも分類と同じ概念が適用される。
使用例
以下は、リグレッションのユースケースの小さなセットであり、あなた自身のドメインにおける潜在的なリグレッションの問題について考えさせることができる:
- 映画の視聴率を予測する
-
予告編を観た人やソーシャルメディアでシェアした人など、映画と映画ファンに関する情報があれば、公開時にその映画を観る可能性のある人の数を予測したくなるかもしれない。
- 会社の収益を予測する
-
現在の成長軌道、市場、季節性を考慮した上で、その企業が将来どれくらいの収益を上げるかを予測したいと思うかもしれない。
- 作物の収量を予測する
-
ある作物が栽培されている特定の地域に関する情報と、年間を通しての現在の天候が与えられた場合、特定の区画の作物の合計収穫量を予測したいと思うかもしれない。
MLlibの回帰モデル
MLlibにはいくつかの基本的な回帰モデルがある。これらのモデルのいくつかは第26章から引き継いだものである。その他は、回帰問題のドメインにのみ関連するものである。このリストはSpark 2.2現在のものであるが、今後増える予定である:
-
線形回帰
-
一般化線形回帰
-
等張回帰
-
決定木
-
ランダムフォレスト
-
グラディエント・ブースト・ツリー
-
生存回帰
この章では、それぞれのモデルの基本を説明する:
-
モデルの簡単な説明とアルゴリズムの背後にある直感
-
モデルのハイパーパラメータ(モデルを初期化するさまざまな方法)
-
トレーニングパラメータ(モデルの学習方法に影響を与えるパラメータ)
-
予測パラメータ(予測がどのように行われるかに影響するパラメータ)
第24章で見たように、ParamGrid を使ってハイパーパラメータとトレーニングパラメータを検索することができる。
モデルのスケーラビリティ
MLlib の 回帰モデルはすべて大規模データセットに対応する。表27-1はモデルのスケーラビリティに関する簡単なスコアカードで、(スケーラビリティを重要視するのであれば)特定のタスクに最適なモデルを選択するのに役立つ。これらは、あなたの構成、マシンサイズ、その他の要因に依存する。
| モデル | 数字の特徴 | トレーニングの例 |
|---|---|---|
線形回帰 |
1~1,000万ドル |
制限なし |
一般化線形回帰 |
4,096 |
制限なし |
等張回帰 |
該当なし |
百万ドル |
決定木 |
1,000s |
制限なし |
ランダムフォレスト |
10,000s |
制限なし |
グラディエント・ブースト・ツリー |
1,000s |
制限なし |
生存回帰 |
1~1,000万ドル |
制限なし |
Become an O’Reilly member and get unlimited access to this title plus top books and audiobooks from O’Reilly and nearly 200 top publishers, thousands of courses curated by job role, 150+ live events each month,
and much more.
Read now
Unlock full access