Skip to Content
データサイエンス設計マニュアル
book

データサイエンス設計マニュアル

by Steven S. Skiena, 小野 陽子, 長尾 高弘
January 2020
Beginner to intermediate
728 pages
10h 26m
Japanese
O'Reilly Japan, Inc.
Content preview from データサイエンス設計マニュアル
2.4 対数 45
2 -12
率自体を軸にしてグラフを描くと、大きな比率に対するスペースと比べて小さな比率に対する
スペースが小さくなる(左)。比率の対数を軸としてグラフを描いた方が、データの実態をよく表
現できる(右)
率を 24 時間にわたって記録したものである(個々の赤い点は 1 時間ごとの値を示している)。黒の連続線
は、両方の値が同じで比率が 1 になったところを示している。では、このグラフをよく見てみよう。連続線
の左側が狭い範囲に偏っているので読みにくい。そして、外れ値が目立つ。新しいアルゴリズムが最上行の
7UM917 でうまく機能していないことは間違いない。右に極端に離れた点は紛れもない外れ値だ。
しかし、それ以外に外れ値は見当たらない。では、比率の対数をプロットした図 2 -12(右)を見てみよ
う。黒い線の左右のスペースがほぼ均等だ。そして、最上行の右端の点が実際にはそれほど大きな外れ値で
はないこともわかる。右の外れ値よりも、左端のいくつかの点での改善度の方がはるかに大きい。このグラ
フからは新アルゴリズムの方が全般的によいことがわかるが、それは、比率自体ではなく、比率の対数を
使ってグラフを描いているからだ。
2.4.3 対数と歪んだ分布の正規化
対称的でベル型に分布している変数は、モデルの特徴として適していることが多い。かなりのばらつきを
示しているので、分類に使うことができるが、ばらつきがそれほど激しいわけではないので外れ値がはっき
りとわかる。
しかし、すべての分布が対称的になるわけではない。図 ...
Become an O’Reilly member and get unlimited access to this title plus top books and audiobooks from O’Reilly and nearly 200 top publishers, thousands of courses curated by job role, 150+ live events each month,
and much more.

Read now

Unlock full access

More than 5,000 organizations count on O’Reilly

AirBnbBlueOriginElectronic ArtsHomeDepotNasdaqRakutenTata Consultancy Services

QuotationMarkO’Reilly covers everything we've got, with content to help us build a world-class technology community, upgrade the capabilities and competencies of our teams, and improve overall team performance as well as their engagement.
Julian F.
Head of Cybersecurity
QuotationMarkI wanted to learn C and C++, but it didn't click for me until I picked up an O'Reilly book. When I went on the O’Reilly platform, I was astonished to find all the books there, plus live events and sandboxes so you could play around with the technology.
Addison B.
Field Engineer
QuotationMarkI’ve been on the O’Reilly platform for more than eight years. I use a couple of learning platforms, but I'm on O'Reilly more than anybody else. When you're there, you start learning. I'm never disappointed.
Amir M.
Data Platform Tech Lead
QuotationMarkI'm always learning. So when I got on to O'Reilly, I was like a kid in a candy store. There are playlists. There are answers. There's on-demand training. It's worth its weight in gold, in terms of what it allows me to do.
Mark W.
Embedded Software Engineer

You might also like

Python機械学習クックブック

Python機械学習クックブック

Chris Albon, 中田 秀基
Rではじめるデータサイエンス

Rではじめるデータサイエンス

Hadley Wickham, Garrett Grolemund, 黒川 利明, 大橋 真也
プログラミングC# 第8版

プログラミングC# 第8版

Ian Griffiths, 木下 哲也, 鈴木 幸敏

Publisher Resources

ISBN: 9784873118918Other