
基因组学简介
:
新手必读
|
63
果,就进入危险区了。我们若不小心,就可能将生物学影响归到一个假变异上面。
它之所以出现在样本中,是因为我们用某种方法处理数据而造成的。
根据不同方案制备的相同样本
G-C比A-T更难“打开”
方案A
方案B
方案C
覆盖度不足
GC含量为69%的外显子
两个氢键
三个氢键
图
2
-
26
:DNA 自身的某些生化属性可导致特定区域的偏差
2.4.4
规格统一:功能等价流水线
变异识别之前的数据预处理阶段,替代手段多种多样且都有效,可以说该阶段大概
是基因组分析最具异质性的一部分。你有多种“正确行事”的方式,具体用哪种视
基因组分析工作的安排而定,比如你可能更看重成本或运行时间等。每一步你都可
以用替代工具(既有开源,又有商用),匹配步骤更是如此。新入行的生信开发者,
编写一个新匹配算法,几乎成为入行仪式。
然而选择太多也有其不利的一面。不同实现之间的差异,可能为下游分析引入批次
效应。下游分析过程,如需比较用不同变异流水线生成的数据集,有时可能严重影
响科研结果。这就是为什么过去博德研究所的团队总是选择重新预处理来自外部的
基因组数据。对于做过比对的读段数据,他们系统地复原,使其恢复到匹配前状态,
清除所有标记或可逆修改。然后,他们将复原的数据输入内部预处理流水线。
可是像
gnomAD
等大型聚合项目,因生成和使用数据剧增,该策略不再可行。为解
决这一难题,博德研究所联合北美其他一些大型基因组测序和分析中心(纽约基因
组中心、华盛顿大学、密歇根大学、贝勒医学院)制定标准,按统一标准实现流水线。