9章範囲データの操作
ここに、あなたに関連していて以前解いたことのある問題があるとします。あなたはそれを利用できますか? その結果を利用できますか? その方法を使えるでしょうか?
──ジョージ・ポリア『いかにして問題を解くか』(1945)
バイオインフォマティシャンには幸いなことに、地球上の生きとし生けるすべての生命から得られるどんなゲノムも、染色体の集合体として同様の方法でコンピュータ上に表現できるのだ。すなわち塩基配列の集合である(ゲノム変異およびアセンブリの不確実性は除く)。各配列は参照DNA分子を表し、それは完全にアセンブルされた染色体、または部分的にアセンブルされたゲノム中のスキャフォールドまたはコンティグに対応する。塩基配列は直線であるが、プラスミドやミトコンドリアなどの環状染色体が切断されたものとして示されることもある。塩基配列(A、T、C、G)を含むことに加えて、これらの参照配列は、ゲノム中のすべての位置を記述するための座標系として働く。さらに、これらの染色体配列の単位は個々の塩基対であるため、ゲノム上の位置を特定するために使えるこれ以上詳細な分解単位はない。
この一次元の座標系を使用して、ゲノム上の位置または領域を線形染色体配列の範囲として記述することができる。なぜこれは重要なのだろうか? 多くのタイプのゲノムデータが特定のゲノム領域に対応付けられており、この領域は染色体上の連続する位置を含む範囲として表すことができるからである。次のような情報はすべて一次元の染色体配列上における範囲として表現できる。すなわち、アノテーションデータ、遺伝子モデルのようなゲノムの特徴、SNPやインデル、転移因子、結合部位、ペアワイズ多様性、GC含量などである。全ゲノム再シークエンシング、RNA-Seq、ChIP-Seq、バイサルファイト配列解析のような実験から得られた配列決定リードアラインメントデータも範囲として表すことができる。 ...
Get バイオインフォマティクスデータスキル ―オープンソースツールを使ったロバストで再現性のある研究 now with the O’Reilly learning platform.
O’Reilly members experience books, live events, courses curated by job role, and more from O’Reilly and nearly 200 top publishers.