
基因数据分析和
BDG
项目
|
207
.filter(!_._3.contains("N"))
➌
.map(tup => {
➍
val region = tup._1._1
val label = tup._1._2
val contig = region.referenceName
val start = region.start
val end = region.end
val phylopAvg = tup._2._1
val phylopMin = tup._2._2
val phylopMax = tup._2._3
val seq = tup._3
val pwmScore = scorePWM(seq)
val closestTss = math.min(
distanceToClosest(bTssData.value(contig), start),
distanceToClosest(bTssData.value(contig), end))
val tf = "CTCF"
(contig, start, end, pwmScore, phylopAvg, phylopMin, phylopMax,
closestTss, tf, cellLine, label)}))
➊
内部连接确保我们得到定义完善的特征向量。
➋
提取基因组中与该位点对应的基因组序列,并附加到元组中。
➌
丢弃任何基因组序列模糊的位点。
➍
这里是我们最终建立的特征向量。 ...