
在
Terra
平台自己组装工作区
|
419
无法在原地编辑列名或删除不想要的列,这确实有点烦。导入对话框也有局
限,例如,确认执行导入操作之前,我们喜欢预览数据以了解数据有几行几
列。我们希望随着
Terra
平台走向成熟,其界面在这些方面能有所改善。
令人欣慰的是我们只要编辑两个列名,就能解决命名不匹配这个小问题。虽然这似
乎是个小问题,但是这个坎其实是一更大问题的症状:数据集的组织方式及其属性
的命名方式,其标准化工作还不到位。尝试分析源头不同的联合数据集,几乎都会
快速变成一项折磨人的练习,因为你得解决数据模式和命名规范方面的冲突。然而,
目前这方面还没有统一解决方案。当你遇到这种问题,先化简问题,将其限定到需
调和组件的最小集合,将非常有帮助。例如,尝试定义每个数据集的核心数据模式,
即确定数据的关键部分,理清各部分之间的关系。调整数据,提高其兼容程度,以
满足工作需要,具体要做哪些工作呢?你可据此评估。
该例中,我们已拿到我们需要的数据表:我们的所有样本都在
sample
表定义,其中
GVCF
文件放在
gvcf
列,对应的索引文件放在
gvcf_index
列。表中其他列与我们接
下来要做的无关。下面我们对工作区所有样本执行联合变异识别分析。
13.3.6
对联合数据集执行联合识别分析
为结束场景三,我们将运行该工作区预先配置好的
3_Joint_Discovery
工作流。如第
6
章所讲它采用
GATK
最佳实践,在一组样本上联合识别种系短变异。我们先在一
部分样本上试运行工作流,但我们将提供其扩展说明,如想在所有样本上运行 ...