
用
GATK
最佳实践发现种系短变异
|
167
-I sample_markdups.bam \
--bqsr-recal-file recal_data.table \
-O sample_markdups_recal.bam
该命令生成最终输出结果:一个
BAM
文件(
sample_markdups_recal.bam
),存放
已校正碱基质量值的读段数据,可用于后续分析。
每个样本都要单独执行该处理步骤,但算法本身在不同读段组有差别,因为它跟踪
的很多偏差因读段组而异。初始统计数据的采集可以在不同基因组坐标并行开展,
通常按染色体或染色体批次采集。但如有必要,该工作可进一步拆分以提高通量。
按区域采集的统计数据,无法以并行方式汇总到单个基因组宽度的协变量模型,但
是由于计算量较小不会变成瓶颈。重校正规则的最终应用,最好也像初始统计数据
采集那样,在基因组区域并行处理,再紧跟一步最终的文件合并操作,为每个样本
生成一个适用于后续分析的文件。
6.2
联合发现分析
终于到了真正有趣的部分!我们将识别人群变异。但深入具体做法之前,我们还是
用几分钟讨论为什么这么做。
若要理解种系变异,一个人的基因组的用途很有限。该领域大多数研究问题都将受
益于对多人数据的研究,不管是只有几个人(如调查父母遗传疾病给孩子的情况),
还是更多人(如群体遗传学)。因此从科学立场出发,我们通常想一起分析多个样本。
此外,聚集来自多个样本的数据有其技术优势,主要体现在提高统计能力和降低技
术噪音的影响等方面。
6.2.1
联合变异识别工作流概览 ...