11章アラインメントデータの操作

 9章では、BEDやGTFなどのゲノム配列上の領域を記述する形式について学習した。これらの形式は、遺伝子モデルなどの、ゲノムにおけるアノテーションの領域を記述するために利用される。他の種類の領域形式は、ハイスループットシークエンシングから得られる数百万(または数十億)のリードをゲノムに対してマッピングした結果の保存など、大量のアラインメントデータを保存するために設計されている。この章では、最も一般的なハイスループットのデータアラインメント形式であるSAM(Sequence Alignment/Mapping)形式(および、そのバイナリ版の形式であるBAM)を見ていこう。SAM/BAM形式は、リファレンスにマップされた配列リードを保存するための標準的なファイル形式だ。

 私たちは2つの理由からSAMとBAMを学習する。まず第1に、バイオインフォマティクスの仕事の大部分はアラインメントファイルの操作であるからだ。ほぼすべてのハイスループットシークエンシングは、SAM/BAM形式でアラインメントデータを生成するステップを含んでいる。各配列リードがアラインメント情報を持つことから、アラインメントデータは巨大なものとなるため、圧縮効率の高い複雑なバイナリファイル形式が必要となる。さらに、最近のアラインメントソフトウェアは、各アラインメントに関する膨大な量の有益な情報を出力する。これらの複雑な形式で保管されたデータから、情報を抽出し探索するために必要なスキルを持つことが不可欠である。

 第2に、SAM/BAMファイルを使用して学習することによって身につくスキルは、これらの特定のファイル形式以外にも応用可能で、より幅広く適用することができるからだ。とはいえ、これらのファイル形式がこの先ずっと変わらない(あるいはいつか別のものに置き換わることはない)と考えるのは、あまり賢明ではない。バイオインフォマティクス分野は新しいデータ形式を発明することで悪名高いからだ(これは情報科学の世界ではよくあることで、xkcdのコミック「スタンダード」〔 ...

Get バイオインフォマティクスデータスキル ―オープンソースツールを使ったロバストで再現性のある研究 now with the O’Reilly learning platform.

O’Reilly members experience books, live events, courses curated by job role, and more from O’Reilly and nearly 200 top publishers.