8章R言語入門
要約すると、データ解析は、実験と同様に、決まった解答のない、高度に対話的で反復的なプロセスだと考えられる。その実際のステップは、太く枝分かれした木のような実行可能なアクションパターンから選ばれることになる。
──「Data analysis and statistics: an expository overview」
J.W. Tukey & M.B. Wilk(1966)
……探索的データ解析とは、態度であり、柔軟なありさまであり、そこにあると信じているものだけでなく、あると信じているものがそこにないことをも探し求める意欲である。グラフ探索的な方法を重視しているが、その手段よりも目的が大切である。
── E. Parzenの論文に対するJ.W. Tukeyのコメント(1979)
多くの生物学者たちが最初にR言語と出会うのは、t検定や分散分析(ANOVA)のような統計解析の解説書だろう。Rはこれらの手法やさらに高度な統計解析に秀でているが、Rの真の強みはデータ解析用のプログラミング言語として、高度に対話的かつ反復的な方法で自由にデータを探索し理解するために使えることだ。Rをデータ解析用プログラミング言語として学習することによって、解析の過程で実験および仮説の検証を行う自由が与えられる。これこそ、バイオインフォマティシャンに必要なものである。特に私たちは、探索的データ解析(Exploratory Data Analysis:EDA)の実行を可能にするR言語のサブセットに焦点を当てる。しかしながら、EDAはR言語の1つの側面にすぎず、Rは最先端の統計や機械学習の手法も含んでいる。
統計学者のJohn W. Tukeyが広めたEDAは、明確な統計的モデリングよりも対話的な探索を通じて、データ(とその限界)を理解することを重視する手法である。1977年の書籍『Exploratory ...
Get バイオインフォマティクスデータスキル ―オープンソースツールを使ったロバストで再現性のある研究 now with the O’Reilly learning platform.
O’Reilly members experience books, live events, courses curated by job role, and more from O’Reilly and nearly 200 top publishers.