5章科学者のためのGit

 2章では、バイオインフォマティクスプロジェクトのディレクトリ構成を整ったものにすることの重要性を述べ、作業中の仕事の質を保てるようになることについて述べた。ディレクトリ構成を整えておくと作業を自動化しやすくなり、研究も楽になり、再現性の高い研究を生み出しやすくなる。しかし、時間が経つにつれてプロジェクトは変化し、共同研究者たちの作業も取り込むことで、私たちはファイルのバージョン管理という新しい課題に直面することになる。

 すでに読者の皆さんは、バージョン管理システムに類するものを使っているかもしれない。たとえば、ここにthesis-vers1.docx、thesis-vers3_CD_edits.docx、analysis-vers6.R、thesis-vers8_CD+GM+SW_edits.docxという名前のファイルがあるとする。これらのファイルの古いバージョンを保存しておくことは有益だ。なぜなら、必要なときにファイルの全部または一部を復元することができるからである。ファイルのバージョンは自分のファイルと共同研究者が編集したファイルを区別するのにも役立つ。しかし、場当たり的なファイルのバージョン管理は、複雑なバイオインフォマティクスプロジェクトの規模に追随できない。というのは、異なるバージョンのスクリプト、R解析、READMEファイル、論文といったもののために、本来ならば整頓されていたプロジェクトディレクトリの中身が乱雑になるのである。

 協働作業を行うと、プロジェクト組織はより複雑になる。DropboxやGoogle Driveのようなサービスを使って同僚とディレクトリ全体を共有することはできるが、何かが削除されたり壊れたりするリスクがある。バイオインフォマティクスプロジェクトのディレクトリ全体を共有ディレクトリに置くというのも難しい。なぜならデータの大きさがギガバイト単位に及ぶことが多く、ネットワークを介して共有するには大きすぎるからである。これらのツールは小さなファイルを共有するには有益であるが、大規模なコードとデータを変更するような共同プロジェクトを管理することは想定されていないからである。 ...

Get バイオインフォマティクスデータスキル ―オープンソースツールを使ったロバストで再現性のある研究 now with the O’Reilly learning platform.

O’Reilly members experience books, live events, courses curated by job role, and more from O’Reilly and nearly 200 top publishers.