Skip to Content
データサイエンス設計マニュアル
book

データサイエンス設計マニュアル

by Steven S. Skiena, 小野 陽子, 長尾 高弘
January 2020
Beginner to intermediate
728 pages
10h 26m
Japanese
O'Reilly Japan, Inc.
Content preview from データサイエンス設計マニュアル
14 1 データサイエンスとは
1.3.2 定量データとカテゴリデータ
定量データは、身長や体重のように数値で構成されている。この種のデータは、代数式や数学モデルに直
接組み込むことができ、グラフに表示できる。
それに対し、カテゴリデータは、性別、髪の色、職業などのように、調査対象の性質を説明するようなラ
ベルを持つデータから構成されている。このような記述情報は、数値データと同じくらい正確で意味のある
ものになり得るが、数値データと同じ技法で分析することはできない。
カテ
ゴリデータは、通常、数値を使って符号化できる。例えば、性別は male = 0(男性)、female = 1
(女性)のように表せる。しかし、1 つの特徴が 3 つ以上の値を持ち、特にそれらの間に順序がなければ、話
は少し難しくなる。例えば、髪の色は、greyhair = 0(白髪)、redhair = 1(赤髪)、blondhair = 2(金髪)
のように色ごとに異なる値を割り当てることができる。しかし、単純な同一性検査以外の目的では、本当は
これらの値を数値として扱うことはできない。髪の色の最大値や最小値に意味があるだろうか。私の髪の色
からあなたの髪の色を引いた値をどのように解釈したらよいのだろうか。
本書で扱う操作は、大半が数値データを中心としたものである。しかし、カテゴリ的な特徴とそれらの有
効な操作方法にも注意を向けなければならない。分類やクラスタリングは、数値データからカテゴリラベル
を生成することだと考えられるが、本書の中心的なテーマとしてたびたび取り上げる。 ...
Become an O’Reilly member and get unlimited access to this title plus top books and audiobooks from O’Reilly and nearly 200 top publishers, thousands of courses curated by job role, 150+ live events each month,
and much more.

Read now

Unlock full access

More than 5,000 organizations count on O’Reilly

AirBnbBlueOriginElectronic ArtsHomeDepotNasdaqRakutenTata Consultancy Services

QuotationMarkO’Reilly covers everything we've got, with content to help us build a world-class technology community, upgrade the capabilities and competencies of our teams, and improve overall team performance as well as their engagement.
Julian F.
Head of Cybersecurity
QuotationMarkI wanted to learn C and C++, but it didn't click for me until I picked up an O'Reilly book. When I went on the O’Reilly platform, I was astonished to find all the books there, plus live events and sandboxes so you could play around with the technology.
Addison B.
Field Engineer
QuotationMarkI’ve been on the O’Reilly platform for more than eight years. I use a couple of learning platforms, but I'm on O'Reilly more than anybody else. When you're there, you start learning. I'm never disappointed.
Amir M.
Data Platform Tech Lead
QuotationMarkI'm always learning. So when I got on to O'Reilly, I was like a kid in a candy store. There are playlists. There are answers. There's on-demand training. It's worth its weight in gold, in terms of what it allows me to do.
Mark W.
Embedded Software Engineer

You might also like

Python機械学習クックブック

Python機械学習クックブック

Chris Albon, 中田 秀基
Rではじめるデータサイエンス

Rではじめるデータサイエンス

Hadley Wickham, Garrett Grolemund, 黒川 利明, 大橋 真也
プログラミングC# 第8版

プログラミングC# 第8版

Ian Griffiths, 木下 哲也, 鈴木 幸敏

Publisher Resources

ISBN: 9784873118918Other