19章

BLASTデータの処理:区切りテキストファイルの解析

 区切りテキストファイルを用いることは、列データをコード化するための標準的な方法です。Microsoft ExcelやGoogle Sheetsのようなスプレッドシートをよく使うと思います。このようなスプレッドシートでは、各ワークシートの上部に列があり、レコードが下にあるデータセットが含まれている場合が多いですね。そのデータは、データの列が区切り記号や文字列で区切られているテキストファイルとしてエクスポートすることができます。多くの場合、区切り文字はカンマであり、ファイルの拡張子は.csvになります。この形式は、カンマで区切られた値の場合、CSV(Comma Separated Values)と呼ばれます。区切り文字がタブの場合、拡張子は.tab.txt、またはタブ区切りの値の.tsvになります。通常、ファイルの最初の行には列の名前が含まれます。配列の比較に使用されるバイオインフォマティクスの分野で最も人気のあるツールの1つであるBLAST(Basic Local Alignment Search Tool)からの出力形式は区切りテキストファイルではありません。この章では、この出力をパースし、csvおよびpandasモジュールを使用してBLASTからの結果を別の区切られたテキストファイルのメタデータと結合する方法を解説します。

 この章では、次のことを学びます。

  • csvkitcsvchkを使用して区切りテキストファイルを表示する方法
  • csvおよびpandasモジュールを用いて、区切りテキストファイルを解析する方法

19.1 BLASTの紹介

 BLASTプログラムは、配列の類似性を決定するためのバイオインフォマティクスで最も普及しているツールの1つです。 ...

Get Pythonではじめるバイオインフォマティクス ―可読性・拡張性・再現性のあるコードを書くために now with the O’Reilly learning platform.

O’Reilly members experience books, live events, courses curated by job role, and more from O’Reilly and nearly 200 top publishers.