8.3.7 データのマージと結合:ベクトルのマッチングとデータフレームのマージ

 ここでは、次の節のためのデータを作成できるよう、データのマージと結合の話題に入ろう。バイオインフォマティクス解析には多数のデータセット同士の接続が含まれる。配列データ、ゲノミック特徴領域(たとえば、遺伝子アノテーション)、機能ゲノムデータ、集団遺伝データなど。リポジトリにデータが山積みになるにつれ、異なるデータセット同士を接続してまとまったストーリーを伝える能力が、ますます重要な解析技術になる。この節では、Rでデータセットを結合するいくつかの標準的な方法を見ていく。なお、より高度な結合を行いたいとき、あるいはRがメモリに保存できる限界を超えるデータについて対処したいときには、13章で学ぶデータベースのほうが適しているだろう。

 2つのベクトルを突き合わせる最も簡単な操作は、Rの%in%演算子を使って、ベクトルの値の一部が別のベクトルにあるかどうかをチェックすることである。Rのx %in% yは、xのどの値がyにあるかを示す論理ベクトルを返す。簡単な例を示す。

> c(3, 4, -1) %in% c(1, 3, 4, 8)
[1]  TRUE  TRUE FALSE

 因子列が取ることができるレベルを指定することによって、%in%を使ってデータフレームから行を選択することがよくある。Repeat Maskerが見つけたヒト染色体XのリピートのデータセットchrX_rmsk.txtを使って、これを説明する。Dataset_S1.txtとは異なり、このデータはヒト参照ゲノムのバージョンhg17を用いている(なぜなら、あとに例として取り上げるhg17を用いた研究結果を再現する際に、これらの同じRepeat ...

Get バイオインフォマティクスデータスキル ―オープンソースツールを使ったロバストで再現性のある研究 now with the O’Reilly learning platform.

O’Reilly members experience books, live events, courses curated by job role, and more from O’Reilly and nearly 200 top publishers.