Skip to Content
コマンドラインではじめるデータサイエンス ―分析プロセスを自在に進めるテクニック
book

コマンドラインではじめるデータサイエンス ―分析プロセスを自在に進めるテクニック

by Jeroen Janssens, 太田 満久, 下田 倫大, 増田 泰彦, 長尾 高弘
September 2015
Intermediate to advanced
272 pages
4h 55m
Japanese
O'Reilly Japan, Inc.
Content preview from コマンドラインではじめるデータサイエンス ―分析プロセスを自在に進めるテクニック
236
付録 C ケーススタディ
な作業に思われるかもしれません。しかし、実際はこのデータクレンジングが非常に
大変なことが多いです。例えば、欠損値、または誤って作成された重複レコードへの
対応の他に、ここでは触れませんでしたが、商品名の表記ゆれへの対応などに気をつ
けなければなりません。また、データの種類によって対応すべきことが異なるため、
一概にこれをやれば良い、ということができません。データをしっかりと理解するこ
とが、異常であったり不要なデータを発見することに繋がります。
C.4
データンン
2

前節のデータクレンジング(
1
)を終えて、明らかにおかしなレコードのチェック(除
去)が完了し、分析を行う段階に近づいてきました。さらにステップを進めていきま
しょう。次に行うのは、基礎集計と基礎集計に基づいた外れ値の除去です。このステッ
プで、データクレンジング(
1
)では発見できなかった異常値を取り除き、分析用デー
タ整備をしていきます。今回ここでは例として「パン」を対象としてお話を進めてい
きます。本書では「精査(
Explororing
)」として紹介されていたステップの一部に該
当します。
まずは「パン」のデータを抽出し、集計してみます。
# item_name
毎のレコード数のカウント、及び売上の合計を算出する
$ csvsql --query "SELECT item_name, count(item_name) AS cnt, sum(price) AS sales FROM ...
Become an O’Reilly member and get unlimited access to this title plus top books and audiobooks from O’Reilly and nearly 200 top publishers, thousands of courses curated by job role, 150+ live events each month,
and much more.

Read now

Unlock full access

More than 5,000 organizations count on O’Reilly

AirBnbBlueOriginElectronic ArtsHomeDepotNasdaqRakutenTata Consultancy Services

QuotationMarkO’Reilly covers everything we've got, with content to help us build a world-class technology community, upgrade the capabilities and competencies of our teams, and improve overall team performance as well as their engagement.
Julian F.
Head of Cybersecurity
QuotationMarkI wanted to learn C and C++, but it didn't click for me until I picked up an O'Reilly book. When I went on the O’Reilly platform, I was astonished to find all the books there, plus live events and sandboxes so you could play around with the technology.
Addison B.
Field Engineer
QuotationMarkI’ve been on the O’Reilly platform for more than eight years. I use a couple of learning platforms, but I'm on O'Reilly more than anybody else. When you're there, you start learning. I'm never disappointed.
Amir M.
Data Platform Tech Lead
QuotationMarkI'm always learning. So when I got on to O'Reilly, I was like a kid in a candy store. There are playlists. There are answers. There's on-demand training. It's worth its weight in gold, in terms of what it allows me to do.
Mark W.
Embedded Software Engineer

You might also like

Pythonからはじめるアルゴリズムトレード ―自動売買の基礎と機械学習の本格導入に向けたPythonプログラミング

Pythonからはじめるアルゴリズムトレード ―自動売買の基礎と機械学習の本格導入に向けたPythonプログラミング

Yves Hilpisch, 村上 振一郎
デザインスプリント ―プロダクトを成功に導く短期集中実践ガイド

デザインスプリント ―プロダクトを成功に導く短期集中実践ガイド

Richard Banfield, C. Todd Lombardo, Trace Wax, 安藤 幸央, 佐藤 伸哉, 牧野 聡

Publisher Resources

ISBN: 9784873117416Other