June 2023
Intermediate to advanced
460 pages
6h 20m
Japanese
18章
FASTXサンプラー:配列ファイルからランダムにサンプリング
ゲノミクスやメタゲノミクスでの配列データはとても大きいため、解析するには膨大な時間と計算リソースを必要とします。多くのシーケンサはサンプルごとに数千万のリードを生成し、実験のサンプル数は10から100になります。それぞれのレプリケーションが存在するため、結果的にギガバイトやテラバイトの容量になります。配列をランダムにサブサンプリングして入力ファイルの容量を小さくすれば、データをより速く探索できます。この章では、Pythonのrandomモジュールを用いてFASTA/FASTQ配列ファイルからリードの一部分を選択する方法を紹介します。
この章では以下のことを学びます。
18.1 はじめましょう
この演習のコードと実行結果は、18_fastx_samplerディレクトリにあります。まずsampler.pyという解法プログラムのコピーから始めます。
$ cd 18_fastx_sampler/$ cp solution.py sampler.py
このプログラムのテストに使うFASTA入力ファイルは第17章で作成したプログラムsynth.pyにより生成されます。このプログラムの作成が終わっていなければ、make fastaを実行する前に必ずプログラムをコピーし、1,000、10,000、100,000個のリードを含む3つのFASTAファイルを作成します。個々の配列長さはおよそ75bpから200bpの間で、ファイル名はそれぞれn1k.fa、n10k.fa、n100k.fa になります。
$ ../15_seqmagique/seqmagique.py tests/inputs/n1* ...
Read now
Unlock full access