143
6 章
データの可視化
グラフィックスは、出来が最高なら推論の道具になる。
— エドワード・タフテ
データの効果的
な可視化(ビジュアライゼーション)は、少なくとも次の 3 つの理由から、データサイエ
ンスの重要な要素になっている。
• 探索的データ分析:データの本当の姿はどのようなものか。扱う対象についての情報を得ることは、
本格的なデータ分析の第一歩である。私が知る限り、そのための最良の方法はプロットと可視化で
ある。
• 誤りの検出:分析の中で何かおかしなことをしていないか。可視化していないデータを機械学習アル
ゴリズムに与えれば、問題を起こしてくれと言っているようなものだ。外れ値、不十分なクリーニン
グ、間違った前提といった問題は、データを適切に可視化すればすぐに明らかになる。基本統計量
は、モデルが実際に何をしているのかを隠してしまうことが多い(私は 77.8 % の基本統計量がそう
だと確信している!)。向かう方向が正しいか正しくないかを厳密に判断することは、モデルの性能
を上げるための第一歩だ。
• コミュニケーション:あなたは自分が学んだことを他の人に効果的に説明できるだろうか。意味のあ
る結果は、共有されて初めて行動につながる。あなたがデータサイエンティストとして成功するかど
うかは、あなたが話している内容をよくわかっていると他の人に伝えられるかどうかにかかってい
る。特に懐疑的な相手にプレゼンテーションを行うときなどには、1 枚の画像は 1,000 語の文章に匹
敵する。
あなたはきっと小学生の頃からグラフとチャートを作ってきただろう。広く使われているソフトウェアを
使えば、プロのような画像を簡単に作ることができる。それなら、データの可視化が難しいというのはどの
ような意味なのだろうか。
たとえ話で答えを言おう。私が若い頃にフィギュアスケートのチャンピオンが襲撃されるという恐ろしい ...