18章

FASTXサンプラー:配列ファイルからランダムにサンプリング

 ゲノミクスやメタゲノミクスでの配列データはとても大きいため、解析するには膨大な時間と計算リソースを必要とします。多くのシーケンサはサンプルごとに数千万のリードを生成し、実験のサンプル数は10から100になります。それぞれのレプリケーションが存在するため、結果的にギガバイトやテラバイトの容量になります。配列をランダムにサブサンプリングして入力ファイルの容量を小さくすれば、データをより速く探索できます。この章では、Pythonのrandomモジュールを用いてFASTA/FASTQ配列ファイルからリードの一部分を選択する方法を紹介します。

 この章では以下のことを学びます。

  • 非決定論的サンプリング

18.1 はじめましょう

 この演習のコードと実行結果は、18_fastx_samplerディレクトリにあります。まずsampler.pyという解法プログラムのコピーから始めます。

$ cd 18_fastx_sampler/$ cp solution.py sampler.py

 このプログラムのテストに使うFASTA入力ファイルは第17章で作成したプログラムsynth.pyにより生成されます。このプログラムの作成が終わっていなければ、make fastaを実行する前に必ずプログラムをコピーし、1,000、10,000、100,000個のリードを含む3つのFASTAファイルを作成します。個々の配列長さはおよそ75bpから200bpの間で、ファイル名はそれぞれn1k.fan10k.fan100k.fa になります。

$ ../15_seqmagique/seqmagique.py tests/inputs/n1* ...

Get Pythonではじめるバイオインフォマティクス ―可読性・拡張性・再現性のあるコードを書くために now with the O’Reilly learning platform.

O’Reilly members experience books, live events, courses curated by job role, and more from O’Reilly and nearly 200 top publishers.