53
3 章
データマンジング
「バベッジさん、あなたの機械に間違った数字を入れても、正しい答えが出ますか?」 と尋ねられたことが、
私は 2 度もある。思考がどう混乱すれば、このような質問をするのか、私にはどうしても理解できない。
— チャールズ・バベッジ
ほ
とんどのデータサイエンティストは、データのクリーニングと整形のために多くの時間を費やしてい
る。その他の少数のデータサイエンティストは、やりたいことに使えるデータがないと文句を言って大半の
時間を費やしている。
この章では、データを使ったコンピューティングの基本技法を学ぶ。統計学や機械学習といったハイソで
上品なものではなく、データマンジングという名前で行われる、データを探し出してクリーニングするとい
う、うんざりするような作業である。
「最良のライブラリ、あるいはプログラミング言語は何か」といった実践的な質問に答えることは明らか
に大切だが、あまりにもそれらは変化が速いので、書籍はその質問に答える場としては向かない。そこで、
特定のソフトウェアツールセットを中心として本書を構成するようなことはせず、一般原則の説明にこだわ
ることにしたい。それでもこの章では、利用できるリソースについて、なぜそういうものが存在するのか、
何をしてくれるのか、どうすればうまく活用できるかを説明する。
あらゆるデータサイエンスプロジェクトの最初の一歩は、正しいデータを手に入れることだが、これは悲
惨なほど難しいことが多い。この章では、データリソースが豊富に入手できる場所をまず紹介してから、不
要な部分を取り除くための技法を紹介する。意味のある結果を得るためには、データをラングリング(加工/
整形)して問題なく分析できることが大切だ。バベッジの言葉は、より簡潔に「ガーベッジイン、ガーベッ ...