Skip to Content
データサイエンス設計マニュアル
book

データサイエンス設計マニュアル

by Steven S. Skiena, 小野 陽子, 長尾 高弘
January 2020
Beginner to intermediate
728 pages
10h 26m
Japanese
O'Reilly Japan, Inc.
Content preview from データサイエンス設計マニュアル
2.3 相関分析 41
2 -9 d
i
= y
i
f(
x
i
) をプロットすると、残差の分散はもとのデータよりも分散が小さくなり、平均が 0
になることがわかる。左側がもとのデータ、右側がそれに対応する残差である
d
i
= y
i
f (x
i
) をプロットしたものである。左のグラフの y の分散 V (y) = 0.056 は、右のグラ
フの残差の分散 V (d) = 0.0065 よりもかなり大きい。実際、次の式が成り立つ。
1 r
2
= 0.116 ⇐⇒ V (d)/V (y) = 0.116
統計的有意性:相関が統計的に有意かどうかを判断するためには、r だけでなく、標本サイズ n
必要になる。伝統的に、無作為に n 個の点の集合を取り出したときに、残差が d を超える確率 α
α 1/20 = 0.05 なら、n 個の点の相関は有意であると言う。
これはそれほど厳しい基準ではない。図 2 -8(右)が示すように、標本サイズが十分大きければ、相
関係数の値が小さくても有意水準 0.05 で統計的に有意になる。r = 0.1 の相関では、分散のわずか
1 % しか説明できないものの、有意水準を α = 0.05 とすれば、n = 300 程度で統計的に有意になる。
特徴の多い大規模なデータモデルでは、弱くても有意な相関には価値がある。1 つの特徴/相関では小さな
効果しか説明/予測できないが、弱くても独立した相関を多数組み合わせると予測力は強くなる。おそらく
有意性については、 ...
Become an O’Reilly member and get unlimited access to this title plus top books and audiobooks from O’Reilly and nearly 200 top publishers, thousands of courses curated by job role, 150+ live events each month,
and much more.

Read now

Unlock full access

More than 5,000 organizations count on O’Reilly

AirBnbBlueOriginElectronic ArtsHomeDepotNasdaqRakutenTata Consultancy Services

QuotationMarkO’Reilly covers everything we've got, with content to help us build a world-class technology community, upgrade the capabilities and competencies of our teams, and improve overall team performance as well as their engagement.
Julian F.
Head of Cybersecurity
QuotationMarkI wanted to learn C and C++, but it didn't click for me until I picked up an O'Reilly book. When I went on the O’Reilly platform, I was astonished to find all the books there, plus live events and sandboxes so you could play around with the technology.
Addison B.
Field Engineer
QuotationMarkI’ve been on the O’Reilly platform for more than eight years. I use a couple of learning platforms, but I'm on O'Reilly more than anybody else. When you're there, you start learning. I'm never disappointed.
Amir M.
Data Platform Tech Lead
QuotationMarkI'm always learning. So when I got on to O'Reilly, I was like a kid in a candy store. There are playlists. There are answers. There's on-demand training. It's worth its weight in gold, in terms of what it allows me to do.
Mark W.
Embedded Software Engineer

You might also like

Python機械学習クックブック

Python機械学習クックブック

Chris Albon, 中田 秀基
Rではじめるデータサイエンス

Rではじめるデータサイエンス

Hadley Wickham, Garrett Grolemund, 黒川 利明, 大橋 真也
プログラミングC# 第8版

プログラミングC# 第8版

Ian Griffiths, 木下 哲也, 鈴木 幸敏

Publisher Resources

ISBN: 9784873118918Other