6章バイオインフォマティクスのデータ

 ここまでで、プロジェクト・ディレクトリの編成、中級レベルのUnix、リモートマシンの操作、バージョン管理システムの利用などの、バイオインフォマティクスを始めるための予備知識の多くを扱ってきた。しかし、新規のバイオインフォマティクスプロジェクトの重要な要素であるデータについては述べてこなかった。

 データはあらゆるバイオインフォマティクスプロジェクトにとって欠くべからざるものである。私たちは大量のデータを、意味を抽出できるような一点になるまで洗練していくことによって、複雑な生物システムの理解をさらに深めていく。残念ながら中小規模のデータセットでは簡単だった作業の多くは、ゲノミクスではありがちな、大規模で複雑なデータセットでは難しくなる。たとえば以下のような問題がある。

データの取得

大規模な配列データセットをダウンロードする場合でも、Webアプリケーションに何百回もアクセスして特定のファイルをダウンロードする場合でも、バイオインフォマティクスでデータを取得するには特別なツールとスキルが必要である。

データ整合性の確保

大規模なデータセットをネットワーク経由で転送するとデータ破損の機会が増え、あとで誤った解析が行われる可能性がある。そのため、解析を続ける前にツールを使用してデータの整合性を確認する必要がある。同じツールを使用して、解析で正しいバージョンのデータを使用していることを確認することもできる。

圧縮

バイオインフォマティクスで扱うデータは極めて大きいので、しばしば圧縮する必要がある。したがって、圧縮されたデータを扱うことはバイオインフォマティクスの不可欠なスキルである。

6.1 バイオインフォマティクスデータの取得 ...

Get バイオインフォマティクスデータスキル ―オープンソースツールを使ったロバストで再現性のある研究 now with the O’Reilly learning platform.

O’Reilly members experience books, live events, courses curated by job role, and more from O’Reilly and nearly 200 top publishers.