Skip to Content
データサイエンス設計マニュアル
book

データサイエンス設計マニュアル

by Steven S. Skiena, 小野 陽子, 長尾 高弘
January 2020
Beginner to intermediate
728 pages
10h 26m
Japanese
O'Reilly Japan, Inc.
Content preview from データサイエンス設計マニュアル
72 3 データマンジング
いが、実は目的はそこにある。無作為な値を繰り返し選択すると、補定の影響を統計学的に評価でき
る。
10 種類の異なる補定値でモデルを 10 回実行して結果が大きく異なるなら、おそらくそのモデ
ルにはあまり信頼を置けない。データセットにかなりの割合の欠損値があるときには、この正確度
チェックが特に役に立つ。
最近傍レコードによる補定:存在するすべてのフィールドから判断して最も近く、欠損値のないレ
コードが特定できる場合、この最近傍レコードを使って欠損値を推定してはどうだろうか。レコード
間の分散が系統的な理由から説明できる場合、この方法による予想は平均よりも正確になるはずだ。
この方法では、最も近いレコードを見つけるために距離関数が必要になる。データサイエンスでは、
最近傍法は重要な技法であり、10.2 節で詳しく説明する。
補間による補定:より一般的に、線形回帰(9.1 節参照)などの方法を使えば、レコード内の他の
フィールドからターゲットフィールドの値を予測することができる。そのようなモデルはレコード全
体で訓練し、欠損値を持つレコードに適用する。
線形回帰を使った欠損値の予測は、欠損値を持つフィールドがレコードに 1 つしかないときに最も効
果的になる。ただ、雑な予測によって有意な外れ値を作ってしまう危険性がある。回帰モデルは、簡
単に異常に高い値や低い値を欠損フィールドに埋め込み、不完全レコードを外れ値にしてしまう。こ
れでは、下流の分析では、欠損値を持つレコードにより ...
Become an O’Reilly member and get unlimited access to this title plus top books and audiobooks from O’Reilly and nearly 200 top publishers, thousands of courses curated by job role, 150+ live events each month,
and much more.

Read now

Unlock full access

More than 5,000 organizations count on O’Reilly

AirBnbBlueOriginElectronic ArtsHomeDepotNasdaqRakutenTata Consultancy Services

QuotationMarkO’Reilly covers everything we've got, with content to help us build a world-class technology community, upgrade the capabilities and competencies of our teams, and improve overall team performance as well as their engagement.
Julian F.
Head of Cybersecurity
QuotationMarkI wanted to learn C and C++, but it didn't click for me until I picked up an O'Reilly book. When I went on the O’Reilly platform, I was astonished to find all the books there, plus live events and sandboxes so you could play around with the technology.
Addison B.
Field Engineer
QuotationMarkI’ve been on the O’Reilly platform for more than eight years. I use a couple of learning platforms, but I'm on O'Reilly more than anybody else. When you're there, you start learning. I'm never disappointed.
Amir M.
Data Platform Tech Lead
QuotationMarkI'm always learning. So when I got on to O'Reilly, I was like a kid in a candy store. There are playlists. There are answers. There's on-demand training. It's worth its weight in gold, in terms of what it allows me to do.
Mark W.
Embedded Software Engineer

You might also like

Python機械学習クックブック

Python機械学習クックブック

Chris Albon, 中田 秀基
Rではじめるデータサイエンス

Rではじめるデータサイエンス

Hadley Wickham, Garrett Grolemund, 黒川 利明, 大橋 真也
プログラミングC# 第8版

プログラミングC# 第8版

Ian Griffiths, 木下 哲也, 鈴木 幸敏

Publisher Resources

ISBN: 9784873118918Other