15章

Seqmagickマジック:レポートの作成と整形

 バイオインフォマティクスのプロジェクトでは、しばしばFASTAやFASTQ形式の配列ファイルでいっぱいのディレクトリであふれています。おそらくそうしたファイルに対して、ファイルの総数や配列長の平均や最小そして最大といった配列分布について知りたいと思うでしょう。ファイルが破損していないか(シーケンシングセンターの転送に失敗したかもしれない)、サンプルのリード数が極端に少ない場合はシーケンシングに失敗している可能性があり、やり直す必要があります。本章では、ハッシュとSeqmagickツール(https://oreil.ly/VI9gr)を使って配列ファイルを検査するテクニックを紹介します。次に、Seqmagickの一部になぞらえた小規模のユーティリティを作成して、整形されたテキストテーブルの作成方法を解説します。本プログラムは、指定されたファイルセットのすべてのレコードを処理して、要約統計量を作成するためのプログラムのテンプレートとなります。

 この章では以下のことを学びます。

  • seqmagickツールのインストール
  • MD5ハッシュ値の計算
  • 引数を制約するためのargparseでのchoicesの使い方
  • numpyモジュールの使い方
  • ファイルハンドルの操作
  • tabulateおよびrichモジュールによるテーブルへの整形出力

15.1 Seqmagickを用いた配列ファイルの解析

 seqmagickは配列ファイルを扱うための便利なコマンドラインユーティリティです。これは、序文のセットアップで、他のPythonモジュールと一緒にインストールされているはずです。そうでない場合は以下のようにpipでインストールできます。

Get Pythonではじめるバイオインフォマティクス ―可読性・拡張性・再現性のあるコードを書くために now with the O’Reilly learning platform.

O’Reilly members experience books, live events, courses curated by job role, and more from O’Reilly and nearly 200 top publishers.