Skip to Content
スパーク定義ガイド
book

スパーク定義ガイド

by Bill Chambers, Matei Zaharia
March 2025
Intermediate to advanced
606 pages
9h
Japanese
O'Reilly Media, Inc.
Content preview from スパーク定義ガイド

第27章. 回帰

この作品はAIを使って翻訳されている。ご意見、ご感想をお待ちしている:translation-feedback@oreilly.com

回帰 は、分類の論理的拡張である。単に値のセットから1つの値を予測するのではなく、回帰は特徴(数値として表現される)のセットから実数(または連続変数)を予測する行為である。

回帰は分類よりも難しいかもしれない、なぜなら数学的な観点からは、可能な出力値が無限にあるからである。さらに我々は、正確さとは対照的に、予測値と真値の間のエラーのメトリックを最適化することを目的とする。それを除けば、回帰と分類はかなり似ている。このため、回帰にも分類と同じ概念が適用される。

使用例

以下は、リグレッションのユースケースの小さなセットであり、あなた自身のドメインにおける潜在的なリグレッションの問題について考えさせることができる:

映画の視聴率を予測する

予告編を観た人やソーシャルメディアでシェアした人など、映画と映画ファンに関する情報があれば、公開時にその映画を観る可能性のある人の数を予測したくなるかもしれない。

会社の収益を予測する

現在の成長軌道、市場、季節性を考慮した上で、その企業が将来どれくらいの収益を上げるかを予測したいと思うかもしれない。

作物の収量を予測する

ある作物が栽培されている特定の地域に関する情報と、年間を通しての現在の天候が与えられた場合、特定の区画の作物の合計収穫量を予測したいと思うかもしれない。

MLlibの回帰モデル

MLlibにはいくつかの基本的な回帰モデルがある。これらのモデルのいくつかは第26章から引き継いだものである。その他は、回帰問題のドメインにのみ関連するものである。このリストはSpark 2.2現在のものであるが、今後増える予定である:

  • 線形回帰

  • 一般化線形回帰

  • 等張回帰

  • 決定木

  • ランダムフォレスト

  • グラディエント・ブースト・ツリー

  • 生存回帰

この章では、それぞれのモデルの基本を説明する:

  • モデルの簡単な説明とアルゴリズムの背後にある直感

  • モデルのハイパーパラメータ(モデルを初期化するさまざまな方法)

  • トレーニングパラメータ(モデルの学習方法に影響を与えるパラメータ)

  • 予測パラメータ(予測がどのように行われるかに影響するパラメータ)

第24章で見たように、ParamGrid を使ってハイパーパラメータとトレーニングパラメータを検索することができる。

モデルのスケーラビリティ

MLlib の 回帰モデルはすべて大規模データセットに対応する。表27-1はモデルのスケーラビリティに関する簡単なスコアカードで、(スケーラビリティを重要視するのであれば)特定のタスクに最適なモデルを選択するのに役立つ。これらは、あなたの構成、マシンサイズ、その他の要因に依存する。

表27-1. 回帰スケーラビリティのリファレンス
モデル 数字の特徴 トレーニングの例

線形回帰

1~1,000万ドル

制限なし

一般化線形回帰

4,096

制限なし

等張回帰

該当なし

百万ドル

決定木

1,000s

制限なし

ランダムフォレスト

10,000s

制限なし

グラディエント・ブースト・ツリー

1,000s

制限なし

生存回帰

1~1,000万ドル

制限なし

他の上級分析の章と同様、この章ではすべてのモデルの数学的基礎を教えることはできない。回帰の復習については、ISLと ESLの

Become an O’Reilly member and get unlimited access to this title plus top books and audiobooks from O’Reilly and nearly 200 top publishers, thousands of courses curated by job role, 150+ live events each month,
and much more.

Read now

Unlock full access

More than 5,000 organizations count on O’Reilly

AirBnbBlueOriginElectronic ArtsHomeDepotNasdaqRakutenTata Consultancy Services

QuotationMarkO’Reilly covers everything we've got, with content to help us build a world-class technology community, upgrade the capabilities and competencies of our teams, and improve overall team performance as well as their engagement.
Julian F.
Head of Cybersecurity
QuotationMarkI wanted to learn C and C++, but it didn't click for me until I picked up an O'Reilly book. When I went on the O’Reilly platform, I was astonished to find all the books there, plus live events and sandboxes so you could play around with the technology.
Addison B.
Field Engineer
QuotationMarkI’ve been on the O’Reilly platform for more than eight years. I use a couple of learning platforms, but I'm on O'Reilly more than anybody else. When you're there, you start learning. I'm never disappointed.
Amir M.
Data Platform Tech Lead
QuotationMarkI'm always learning. So when I got on to O'Reilly, I was like a kid in a candy store. There are playlists. There are answers. There's on-demand training. It's worth its weight in gold, in terms of what it allows me to do.
Mark W.
Embedded Software Engineer

You might also like

高性能Spark

高性能Spark

Holden Karau, Rachel Warren
生成AIの可視化

生成AIの可視化

Priyanka Vergadia, Valliappa Lakshmanan
ソフトウェア工学の基礎

ソフトウェア工学の基礎

Nathaniel Schutta, Dan Vega

Publisher Resources

ISBN: 9798341627567