10章配列データの操作
バイオインフォマティクスの中核となる課題の1つは、(しばしば、うまく定義されていないか、曖昧な)多くのファイル形式を扱うことである。時間の経過に伴って、人間が読解可能なその場しのぎの形式が、デファクトスタンダードの地位を獲得してきた。
── Peter Cock et al. (2010)
良いプログラマは何を書くべきかを知っている。偉大なプログラマは何を書き換える(そして再利用する)べきかを知っている。
── 『伽藍とバザール』Eric S Raymond著
ヌクレオチド(およびタンパク質)の配列は、バイオインフォマティクスで広く普及している2つのプレーンテキスト形式FASTAとFASTQで記録されている(それぞれ「ファスタ」または「ファストエイ」、「ファストキュー」と読む)。本章では、それぞれの形式とその限界について説明し、これらの形式でデータを扱うためのいくつかのツールを紹介する。この章は短いが、重要なレッスンを含んでいる。その場しのぎのバイオインフォマティクス形式で作業する際の共通の落とし穴に注意してほしい。ファイル形式のようなマイナーな細部に対する単純な誤りを見つけて修正するには、多大な時間とエネルギーを浪費することになりかねない。よって、こうした細かい部分にも早い段階から気を配るべきだ。
10.1 FASTA形式
FASTA形式は、William R. PearsonとDavid J. Lipmanによって作成されたFASTAアラインメントパッケージに由来する。FASTA形式は、塩基ごとの品質スコアを必要としないあらゆる種類の配列データを保存するために用いられる。これには、参照ゲノムファイル、タンパク質配列、コーディングDNA配列(CDS)、転写配列などが含まれる。FASTAはマルチプルアラインメントデータを格納するために使用することもできるが、この特殊なケースについてはここでは議論しない。これまでの章でも、FASTA形式の例が登場したが、本節ではFASTA形式をより詳しく説明し、一般的な落とし穴を見た上で、この形式を操作するためのツールを紹介する。 ...
Get バイオインフォマティクスデータスキル ―オープンソースツールを使ったロバストで再現性のある研究 now with the O’Reilly learning platform.
O’Reilly members experience books, live events, courses curated by job role, and more from O’Reilly and nearly 200 top publishers.