19章
BLASTデータの処理:区切りテキストファイルの解析
区切りテキストファイルを用いることは、列データをコード化するための標準的な方法です。Microsoft ExcelやGoogle Sheetsのようなスプレッドシートをよく使うと思います。このようなスプレッドシートでは、各ワークシートの上部に列があり、レコードが下にあるデータセットが含まれている場合が多いですね。そのデータは、データの列が区切り記号や文字列で区切られているテキストファイルとしてエクスポートすることができます。多くの場合、区切り文字はカンマであり、ファイルの拡張子は.csv
になります。この形式は、カンマで区切られた値の場合、CSV(Comma Separated Values)と呼ばれます。区切り文字がタブの場合、拡張子は.tab
、.txt
、またはタブ区切りの値の.tsv
になります。通常、ファイルの最初の行には列の名前が含まれます。配列の比較に使用されるバイオインフォマティクスの分野で最も人気のあるツールの1つであるBLAST(Basic Local Alignment Search Tool)からの出力形式は区切りテキストファイルではありません。この章では、この出力をパースし、csv
およびpandas
モジュールを使用してBLASTからの結果を別の区切られたテキストファイルのメタデータと結合する方法を解説します。
この章では、次のことを学びます。
csvkit
とcsvchk
を使用して区切りテキストファイルを表示する方法csv
およびpandas
モジュールを用いて、区切りテキストファイルを解析する方法
19.1 BLASTの紹介
BLASTプログラムは、配列の類似性を決定するためのバイオインフォマティクスで最も普及しているツールの1つです。 ...
Get Pythonではじめるバイオインフォマティクス ―可読性・拡張性・再現性のあるコードを書くために now with the O’Reilly learning platform.
O’Reilly members experience books, live events, courses curated by job role, and more from O’Reilly and nearly 200 top publishers.