June 2023
Intermediate to advanced
460 pages
6h 20m
Japanese
16章
FASTX grep:配列を選択するユーティリティプログラムの作成
以前同僚から、LSU(大サブユニットRNAの略)文字列に関する記述や名称を含むFASTQファイルから、その中にあるすべてのRNA配列を見つけてほしいと頼まれたことがあります。FASTQファイルに関するこの問題だけなら、grepプログラム*1を使って、あるパターンにマッチするファイル中のすべての行を見つければ済みます。一方Pythonでコードを書けば、FASTAのような他のフォーマットを扱うだけでなく、配列長やGC含量などの他の基準に基づいたレコードを選択するように機能を拡張したプログラムを作成することができます。
*1 grepは、「global regular expression print」の略だという説もある。
この章では以下のことを学びます。
andおよびor演算子の使い方16.1 grepを用いたファイル中の行の検索
grepプログラムは、与えられたパターンにマッチするファイル内のすべての行を見つけることができます。FASTQファイルの1つでLSUを検索すると、このパターンを含む2つのヘッダ行が見つかります。
$ grep LSU tests/inputs/lsu.fq@ITSLSUmock2p.ITS_M01380:138:000000000-C9GKM:1:1101:14440:2042 2:N:0@ITSLSUmock2p.ITS_M01384:138:000000000-C9GKM:1:1101:14440:2043 ...
Read now
Unlock full access