3章探索的データ分析

前章では個人用途の小規模スクリプトを多数取り上げたが、特定の問題に特化したものや独自性の高いものもあった。本章では実際によくある Awk の典型的な使い方を述べる。すなわち、Awk と他ツールを組み合わせ、現実のデータを用いその全体像をつかむことを目的に、形式張らず自由にデータを探索する。この手法を探索的データ分析 (EDA、exploratory data analysis) と言う。統計学の先駆者 John Tukey が提唱した手法だ。

Tukey は箱ひげ図をはじめとしたデータ可視化技術を多く発明した人物だ。また、統計処理プログラミング言語 S に多大な影響を与え、S 言語はその後 R 言語に進化し今日でも広く使用されている。高速フーリエ変換 (Fast Fourier Transform) の共同発明者でもあり、さらに「bit」と「software」という用語を作った人物でもある。著者陣は 1970–80 年代にベル研で彼と同僚だった。友人としての付き合いもあった。創造性に富んだ優秀な研究者が多く集まった環境だが、彼はその中でもひときわ輝く存在だった。

探索的データ分析の真髄は仮説を立て結論への道程を描く前に、まずデータと遊び、そこから何かを発見することにある。Tukey 自身も次のように述べている。

答えを見つけるよりも、問題を見つける方がずっと重要な場合が多い。探索的データ分析とは探求姿勢、遊び心にも似た柔軟性、そして可視化への活用を言うものであり、決して手法の寄せ集めではない。

探索的データ分析は、多くの場合で、次のようなことを含む。物事のカウント、単純な統計値の算出、さまざまな方法でのデータ整理、一定のパターンや共通点、外れ値、異常データの発見、基本的なグラフなどの可視化などだ。重要なのは、ある一点のみを追及し答えを求めるのではなく、短時間で終わる小規模な実験的分析を多数繰り返し、なんらかの洞察を得ることだ。データが持つ真意に気付き始めた時に、改めてこの意義を認識できるだろう。 ...

Get プログラミング言語AWK 第2版 now with the O’Reilly learning platform.

O’Reilly members experience books, live events, courses curated by job role, and more from O’Reilly and nearly 200 top publishers.