June 2023
Intermediate to advanced
460 pages
6h 20m
Japanese
19章
BLASTデータの処理:区切りテキストファイルの解析
区切りテキストファイルを用いることは、列データをコード化するための標準的な方法です。Microsoft ExcelやGoogle Sheetsのようなスプレッドシートをよく使うと思います。このようなスプレッドシートでは、各ワークシートの上部に列があり、レコードが下にあるデータセットが含まれている場合が多いですね。そのデータは、データの列が区切り記号や文字列で区切られているテキストファイルとしてエクスポートすることができます。多くの場合、区切り文字はカンマであり、ファイルの拡張子は.csvになります。この形式は、カンマで区切られた値の場合、CSV(Comma Separated Values)と呼ばれます。区切り文字がタブの場合、拡張子は.tab、.txt、またはタブ区切りの値の.tsvになります。通常、ファイルの最初の行には列の名前が含まれます。配列の比較に使用されるバイオインフォマティクスの分野で最も人気のあるツールの1つであるBLAST(Basic Local Alignment Search Tool)からの出力形式は区切りテキストファイルではありません。この章では、この出力をパースし、csvおよびpandasモジュールを使用してBLASTからの結果を別の区切られたテキストファイルのメタデータと結合する方法を解説します。
この章では、次のことを学びます。
csvkitとcsvchkを使用して区切りテキストファイルを表示する方法csvおよびpandasモジュールを用いて、区切りテキストファイルを解析する方法19.1 BLASTの紹介
BLASTプログラムは、配列の類似性を決定するためのバイオインフォマティクスで最も普及しているツールの1つです。 ...
Read now
Unlock full access