
236
付録 C ケーススタディ
な作業に思われるかもしれません。しかし、実際はこのデータクレンジングが非常に
大変なことが多いです。例えば、欠損値、または誤って作成された重複レコードへの
対応の他に、ここでは触れませんでしたが、商品名の表記ゆれへの対応などに気をつ
けなければなりません。また、データの種類によって対応すべきことが異なるため、
一概にこれをやれば良い、ということができません。データをしっかりと理解するこ
とが、異常であったり不要なデータを発見することに繋がります。
C.4
データンン
2
前節のデータクレンジング(
1
)を終えて、明らかにおかしなレコードのチェック(除
去)が完了し、分析を行う段階に近づいてきました。さらにステップを進めていきま
しょう。次に行うのは、基礎集計と基礎集計に基づいた外れ値の除去です。このステッ
プで、データクレンジング(
1
)では発見できなかった異常値を取り除き、分析用デー
タ整備をしていきます。今回ここでは例として「パン」を対象としてお話を進めてい
きます。本書では「精査(
Explororing
)」として紹介されていたステップの一部に該
当します。
まずは「パン」のデータを抽出し、集計してみます。
# item_name
毎のレコード数のカウント、及び売上の合計を算出する
$ csvsql --query "SELECT item_name, count(item_name) AS cnt, sum(price) AS sales FROM ...