Skip to Main Content
Spark高级数据分析(第2版)
book

Spark高级数据分析(第2版)

by Sandy Ryza, Uri Laserson, Sean Owen, Josh Wills
June 2018
Beginner to intermediate content levelBeginner to intermediate
246 pages
6h 57m
Chinese
Posts & Telecom Press
Content preview from Spark高级数据分析(第2版)
基因数据分析和
BDG
项目
201
10.3
 从
ENCODE
数据预测转录因子结合位点
本例中我们将用公开的序列特征数据来构建一个简单的转录因子结合位点模型。转录因子
TF
)是染色体中与特定的
DNA
序列结合的蛋白质,它有助于控制不同基因的表达。因
此,转录因子是确定一个细胞的基因型的关键,许多生理学和疾病过程都离不开它。染色
质免疫沉淀测序(
ChIP-seq
)是一种基于
NGS
的实验,可以在基因组范围内描述对某个
TF
在某个细胞
/
组织类型中的位点结合。然而,
ChIP-seq
成本高技术难度大,而且需要对
每种组织和
TF
的成对组合进行单独实验。相比而言,
DNase-seq
实验寻找染色体组内的开
放的染色质,它对每种组织类型只做一次。与对每个组织
/TF
组合都进行基于
ChIP-seq
TF
结合位点实验不同,我们希望只要能拿到
DNase-seq
数据就可以预测新组织类型中的
TF
结合位点。
更具体地,我们将使用
DNase-seq
数据、已知序列主题数据(来源于
HT-SELEX
http://
www.cell.com/cell/fulltext/S0092-8674(12)01496-1
)和其他的一些公开的
ENCODE
数据集
https://www.encodeproject.org/
)来预测
CTCF
转录因子的结合位点。我们选取了
6
种有
DNase-seq
CTCF ChIP-seq
数据的不同细胞类型。训练样本为
DNA
酶超敏(
HS
)峰值,
TF
为绑定
/
未绑定的二进制标签来自
ChIP-seq
数据。
梳理整个数据流:主要的训练 ...
Become an O’Reilly member and get unlimited access to this title plus top books and audiobooks from O’Reilly and nearly 200 top publishers, thousands of courses curated by job role, 150+ live events each month,
and much more.
Start your free trial

You might also like

大数据项目管理:从规划到实现

大数据项目管理:从规划到实现

Ted Malaska, Jonathan Seidman
管理Kubernetes

管理Kubernetes

Brendan Burns, Craig Tracey

Publisher Resources

ISBN: 9787115482525