
用
GATK
最佳实践发现体细胞变异
|
203
大不同。两者各自的算法,请见
GATK
网站
HaplotypeCaller
和
Mutect2
文 档(
https://
oreil/ly/BIts1
)。现在,只要记住
Mutect2
同样重比对读段即可,因此我们若想将读
段数据作为后续变异审核过程的一部分,我们就需要
bamout
文件。分析师识别体细
胞变异经常这么做(相对而言,它比种系变异识别更常见),我们设置
Mutect2
命令,
使其自动生成
bamout
文件。
7.2.4
估计样本交叉污染
如之前我们所概括的,体细胞突变的识别工作与种系突变识别相比,受低级噪音的
影响更严重。样本之间的少量污染(研究者可能想不到它们竟如此常见)就能迷惑
识别工具,导致很多假变异被划归到真变异。一个等位基因出现在数据,是因为其
生物组织发生真突变,还是因为我们样本受他人
DNA
污染,而这个人的种系恰好
拥有该等位基因。这两种情况我们确实没有直接方法来区分。
我们无法直接纠正这类污染,但是可以估计它对任意给定样本的影响有多大。我们
可以据此标记我们观测到的任意突变识别结果,如果其等位基因分数等于或小于污
染率。虽然我们并不认为这些识别结果必然为假,从而过滤它们,但我们下阶段分析,
势必会对这些识别结果多一份怀疑。
为估计肿瘤样本中的污染率,我们首先识别正常样本的纯合变异位点,选择待研究
的肿瘤位点,接着根据这些位点的支持参考等位基因的读段量,计算肿瘤样本含多
少污染。我们的思路是:因为这些位点应该是纯合变异,所以肿瘤样本中出现的参
考读段是一次污染事故造成的,它们来自其他人的样本。 ...