
426
|
第
13
章
式一直是配置工具,传入数据。然而我们意识到在实际工作中,很多研究者往往采
用数据为先的方法:先拿到数据,再思考如何使用各种工具。
本章最后这个场景,我们将通过一个示例,让你明白我们可以用什么工具处理上
个场景使用的千人基因组数据集。我们不再克隆
GATK
工作区,不再从库里拉取
千人基因组数据,而是克隆千人基因组工作区,并从公开工具仓库
Dockstore
拉取
GATK
工作流。
13.4.1
克隆千人基因组数据工作区
请回到
Data Library
千人基因组高覆盖度数据集工作区,并按之前方法克隆它,为
其指定名称和结算项目。如本章开头所讲,克隆工作区只是浅复制内容,即桶中数
据文件不会拷贝到克隆版本。克隆工作区的数据表只是指向原文件位置;你可以查
看克隆版和原版工作区的文件位置来确定这一点。我们上个场景复制操作的效果与
克隆相当,当时我们先用界面的数据复制选项,接着改编原工作区的
TSV
加载文件。
在你的克隆工作区,用连接原内容的链接,替换其“
Dashboard
”页的某些
或所有描述,以便腾出空间供自己做笔记。
13.4.2
从
Dockstore
导入工作流
现在问题已变为我们如何导入工作流分析数据?在
Terra
平台通常有几种方法,因
你尝试完成的任务而异。首先,你可以简单使用内部方法库,就像你之前做的那
样——或用自己的工作流,又或浏览公共区域,看看能不能找到你喜欢的工作流。
不过只有使用
Terra
平台工作的研究者才使用内部方法库,然而更广阔的生物医学
社区其他研究者开发的大量有意思的工作流,
Terra ...