book

云端基因组学

Name: 云端基因组学
ISBN: 9787519864422

by Geraldine A. Van der Auwera, Brian D. O’Connor

April 2022

Beginner to intermediate

486 pages

10h 22m

Chinese

China Electric Power Press Ltd.

Read now

Unlock full access

本书主要内容
本书练习题要求读者具备哪些计算机知识？
排版约定
使用代码示例
O’Reilly在线学习平台（O’Reilly Online Learning）
联系方式
致谢
第1章概述
1.1 生物学和生命科学大数据的希望和挑战
1.2 大数据对基础设施的挑战
1.3 数据分享和分析云生态系统
1.3.1 云托管数据和云计算
1.3.2 生命科学研究平台
1.3.3 基础设施的标准化和复用
1.4 践行FAIR理念
1.5 小结和下一步学习内容
第2章基因组学简介：新手必读
2.1 基因组学入门
2.1.1 基因作为独立遗传单元（从某种程度上讲）
2.1.2 生物学中心法则：从DNA到RNA再到蛋白质
2.1.3 DNA突变的起因和后果
2.1.4 基因组学是基因组内和基因组间变异的清单
2.1.5 大规模系统性分析基因组的难点
2.2 基因组变异2.2.1 以参考基因组为通用框架
2.2.2 变异的物理分类
2.2.3 种系变异和体细胞变异的区别
2.3 生成高通量测序数据
2.3.1 从生物样本到大量读段数据
2.3.2 DNA文库类型：选择合适的实验设计
2.4 数据处理和分析
2.4.1 将读段匹配到参考基因组
2.4.2 变异识别
2.4.3 数据质量和错误源
2.4.4 规格统一：功能等价流水线
2.5 小结和下一步学习内容
第3章生命科学家必备计算技术入门
3.1 基础设施的基本组件和性能瓶颈
3.1.1 几种处理器硬件：CPU、GPU、FPGA和TPU
3.1.2 计算组织的层级：核、节点、集群和云
3.1.3 解决性能瓶颈
3.2 并行计算
3.2.1 并行处理一个简单分析任务
3.2.2 从核到集群和云：多层并行机制
3.2.3 并行需权衡速度、效率和成本
3.3 并行和自动化流水线
3.3.1 工作流语言
3.3.2 常用基因组流水线语言
3.3.3 工作流管理系统
3.4 虚拟化和云
3.4.1 虚拟机和容器
3.4.2云简介
3.4.3 采用云服务从事研究的几个场景
3.5 小结和下一步学习内容
第4章云上第一步
4.1 开通谷歌云账号并创建首个项目
4.1.1 创建项目
4.1.2 核对你的结算账号并激活免费试用额度
4.2 用Google Cloud Shell运行基本命令
4.2.1 登录Cloud Shell虚拟机
4.2.2 用gsutil访问和管理文件
4.2.3 拉取Docker镜像并启动容器
4.2.4 挂载数据卷，从容器内部访问文件系统
4.3 创建自定义虚拟机
4.3.1 创建和配置你的虚拟机实例
4.3.2 用SSH登录虚拟机
4.3.3 验证身份
4.3.4 复制本书材料到你的虚拟机
4.3.5 在虚拟机上安装Docker
4.3.6 构建GATK容器镜像
4.3.7 停用虚拟机，停止烧钱
4.4 配置IGV浏览器，读取GCS桶数据
4.5 小结和下一步学习内容
第5章 GATK入门
5.1 开始用GATK
5.1.1 运行要求
5.1.2 命令行句法
5.1.3 用Spark实现多线程
5.1.4 GATK实操
5.2 动手找变异
5.2.1 用HaplotypeCaller寻找种系SNP和InDel
5.2.2 根据变异上下文注释过滤变异识别结果 (1/2)
5.2.2 根据变异上下文注释过滤变异识别结果 (2/2)
5.3 GATK最佳实践简介
5.3.1 本书涵盖的最佳实践
5.3.2 其他主要应用场景
5.4 小结和下一步学习内容
第6章用GATK最佳实践发现种系短变异
6.1 数据预处理
6.1.1 将读段匹配到基因组参考
6.1.2 标记重复读段
6.1.3 重新校正碱基质量值
6.2 联合发现分析
6.2.1 联合变异识别工作流概览
6.2.2 识别每个样本的变异，生成GVCF文件
6.2.3 整合GVCF文件
6.2.4 用联合鉴定基因型方法处理多个样本
6.2.5 重校正变异质量值，过滤联合识别结果集
6.2.6 改进基因型分配结果并调整其可信度
6.2.7 下一步和延伸阅读
6.3 用CNN过滤法识别单样本变异
6.3.1 CNN单样本工作流概览
6.3.2 采用1D CNN过滤单样本WGS变异识别结果集
6.3.3 采用2D CNN在模型中加入读段数据
6.4 小结和下一步学习内容
第7章用GATK最佳实践发现体细胞变异
7.1 癌症基因组研究面对的挑战
7.2 体细胞短变异（SNV和InDel）
7.2.1 肿瘤—正常组织配对分析工作流概览
7.2.2 创建Mutect2 PoN队列
7.2.3 在肿瘤—正常组织配对上运行Mutect2工具
7.2.4 估计样本交叉污染
7.2.5 过滤Mutect2识别结果
7.2.6 用Funcotator工具注明识别结果的功能性预测效果
7.3 体细胞拷贝数变异
7.3.1 仅有肿瘤样本的分析工作流概览
7.3.2 创建体细胞CNA PoN
7.3.3 去噪
7.3.4 连接片段并识别CNA
7.3.5 附加分析方法
7.4 小结和下一步学习内容
第8章用工作流自动执行分析任务
8.1 WDL和Cromwell系统简介
8.2 安装和配置Cromwell系统
8.3 你的第一个WDL工作流：Hello World
8.3.1 编写最小示例，学习WDL基本句法
8.3.2 在你的谷歌虚拟机上用Cromwell系统运行简单WDL脚本
8.3.3 解释Cromwell输出日志的要点
8.3.4 加个变量并以JSON格式提供输入
8.3.5 增加另一任务，完善工作流
8.4 你的第一个GATK工作流：Hello HaplotypeCaller
8.4.1 探索WDL工作流
8.4.2 生成JSON输入文件
8.4.3 运行工作流
8.4.4 破坏工作流，学习句法检查和错误提示功能
8.5 介绍分散—聚集并行机制
8.5.1 探索WDL工作流 (1/2)
8.5.1 探索WDL工作流 (2/2)
8.5.2 生成图表，实现可视化
8.6 小结和下一步学习内容
第9章真实基因组工作流详解
9.1 神秘工作流1：加入条件语句，提高灵活性
9.1.1 工作流制图
9.1.2 逆向破解条件切换 (1/2)
9.1.2 逆向破解条件切换 (2/2)
9.2 神秘工作流2：模块化和代码重用
9.2.1 工作流制图
9.2.2 拆解套娃 (1/2)
9.2.2 拆解套娃 (2/2)
9.3 小结和下一步学习内容
第10章用Pipelines API运行多个工作流
10.1 GCP平台PAPI服务简介
10.2 直接发送Cromwell作业到PAPI
10.2.1 配置Cromwell，实现与PAPI通信
10.2.2 用PAPI并行运行 HaplotypeCaller工具
10.2.3 在Google Compute Engine 监控工作流执行
10.3 理解和优化工作流的效率
10.3.1 操作粒度
10.3.2 权衡时间和金钱
10.3.3 成本优化建议
10.3.4 针对平台优化和可移植性
10.4 用WDL Runner封装Cromwell和PAPI的执行
10.4.1 WDL Runner设置
10.4.2 用WDL Runner 并行运行HaplotypeCaller工具
10.4.3 监控WDL Runner的执行
10.5 小结和下一步学习内容
第11章在Terra平台快捷运行多个工作流
11.1 Terra入门
11.1.1 生成账号
11.1.2 创建结算项目
11.1.3 克隆预先配好的工作区
11.2 在Terra平台用Cromwell服务器运行工作流
11.2.1 在单个样本上运行工作流
11.2.2 在数据表的多个样本上运行工作流 (1/2)
11.2.2 在数据表的多个样本上运行工作流 (2/2)
11.2.3 监控工作流执行
11.2.4 在数据表定位工作流输出
11.2.5 再次运行同一工作流，展示缓存调用
11.3 运行一个真实、全规模GATK最佳实践流水线
11.3.1 寻找和克隆GATK种系短变异发现最佳实践工作区
11.3.2 检查预加载数据
11.3.3 选数据并配置全规模工作流
11.3.4 启动全规模工作流并监控其执行
11.3.5 下载输出数据的几种方法，或不下载
11.4 小结和下一步学习内容
第12章 Jupyter Notebooks中的交互式分析
12.1 Terra平台Jupyter 服务简介
12.1.1 Jupyter Notebooks概述
12.1.2 Jupyter Notebooks在Terra平台的工作原理 (1/2)
12.1.2 Jupyter Notebooks在Terra平台的工作原理 (2/2)
12.2 开始用Terra平台的Jupyter软件
12.2.1 检查和自定义笔记本运行环境的配置项
12.2.2 以编辑模式打开笔记本并检查内核
12.2.3 运行Hello World单元格
12.2.4 用gsutil工具操作谷歌云存储桶
12.2.5 声明变量，指向本书数据桶的种系数据
12.2.6 设置沙盒并将输出文件存入工作区数据桶
12.3 在嵌入式IGV浏览器窗口查看基因组数据
12.3.1 设置嵌入式IGV浏览器
12.3.2 为IGV浏览器添加数据
12.3.3 设置访问令牌，查看私有数据
12.4 运行GATK命令，学习、测试或解决问题
12.4.1 运行GATK基本命令：HaplotypeCaller
12.4.2 加载数据（BAM和VCF）到IGV浏览器
12.4.3 在嵌入式IGV浏览器解决一个有问题的变异识别结果
12.5 可视化变异上下文注释数据
12.5.1 用VariantsToTable导出感兴趣的注释值
12.5.2 加载R脚本，绘制函数图像
12.5.3 用makeDensityPlot 绘制QUAL值密度图
12.5.4 绘制QUAL和DP值散点图
12.5.5 绘制附有边缘密度的散点图
12.6 小结和下一步学习内容
第13章在Terra平台自己组装工作区
13.1 管理工作区内外数据
13.1.1 以工作区桶为数据仓库
13.1.2 访问你在Terra平台外部管理的私有数据
13.1.3 访问Terra Data Library数据
13.2 用基本组件重建教程工作区
13.2.1 新建工作区
13.2.2 添加工作流到Methods Repository 并将其导入工作区
13.2.3 用JSON文件快速创建配置
13.2.4 添加数据表
13.2.5 填充工作区资源数据表
13.2.6 用数据表创建工作流配置
13.2.7 添加笔记本并检查运行环境
13.2.8 编写工作区文档并分享它
13.3 从GATK最佳实践工作区开始
13.3.1 克隆GATK最佳实践工作区
13.3.2 检查GATK工作区数据表，理解数据组织方式
13.3.3 了解千人基因组高覆盖度数据集
13.3.4 从千人基因组工作区复制数据表
13.3.5 用TSV加载文件从千人基因组工作区导入数据
13.3.6 对联合数据集执行联合识别分析 (1/2)
13.3.6 对联合数据集执行联合识别分析 (2/2)
13.4 围绕数据集，建工作区
13.4.1 克隆千人基因组数据工作区
13.4.2 从Dockstore导入工作流
13.4.3 配置工作流，使用数据表
13.5 小结和下一步学习内容
第14章撰写可完全复现的论文
14.1 案例研究概览
14.1.1 计算可复现和FAIR框架
14.1.2 案例研究的原始研究成果和历史
14.1.3 评估可用信息和关键挑战
14.1.4 设计可复现的实现
14.2 生成合成数据集，替代私有数据
14.2.1 总体方法论
14.2.2 从千人基因组受试检索变异数据
14.2.3 根据真人数据，仿造外显子组数组
14.2.4 改变仿造外显子组
14.2.5 生成最终数据集
14.3 重建数据处理和分析方法论
14.3.1 匹配和变异发现
14.3.2 变异效果预测、排序和变异负荷分析
14.3.3 新实现的分析能力
14.4 通往FAIR的道路漫长又曲折
14.5 总结
附录术语表 (1/2)
附录术语表 (2/2)
作者介绍
封面介绍

Content preview from 云端基因组学

442

｜

第

章

原访问

受限数据

合成数据

其技术和生物学特征

与原数据等价

图

：我们用合成数据集替换无法公开的真实数据集，新数据集模仿原数据集的特征

14.2.1

总体方法论

使用合成基因组数据这种想法并不新鲜，且与原方法差别不是很大；研究者采用合

成数据已有一段时间。例如，

ICGC-TCGA DREAM Mutation

挑战赛就使用合成数据。

该挑战赛由一系列反复举行的竞赛组成，主办方提供的合成数据含特定已知变异。

要求参赛者开发分析方法，以高准确率和特异性识别其中的突变。

多个程序都能生成竞赛用途的合成序列数据；实际上，一些程序研究者开发它们的

部分原因正是为该类竞赛提供数据。生成这类数据的基本原理是根据参考基因组序

列，仿造读段，并将其输出为标准

FASTQ

或

BAM

文件。这些工具往往接受一个存

放变异识别结果的

VCF

文件作为次要输入，根据该文件修改数据模拟算法，使其所

得序列数据支持

VCF

输入文件所含变异。此外，还有一些程序能够为已存在的序列

数据引入（或插入）变异。你为这种工具提供一组变异，它将修改一段读段，使其

支持期望的变异识别结果。

实际上，在早先一轮的头脑风暴中，我们思考过编辑千人基因组项目真实样本，使

其包含我们感兴趣的变异，并将该数据集剩余样本留作

control

样本。该方法可以避

开生成合成数据这一步。然而我们最初的测试表明低覆盖度（

Low Coverage

）数据

集的外显子组数据的质量不够好，无法满足我们的目的。当时，我们在第

章介绍

的高覆盖度（

High Coverage

）数据集尚不可用，而且因为该数据是用 ...

Become an O’Reilly member and get unlimited access to this title plus top books and audiobooks from O’Reilly and nearly 200 top publishers, thousands of courses curated by job role, 150+ live events each month,
and much more.

Read now

Unlock full access

More than 5,000 organizations count on O’Reilly

O’Reilly covers everything we've got, with content to help us build a world-class technology community, upgrade the capabilities and competencies of our teams, and improve overall team performance as well as their engagement.

Julian F.

Head of Cybersecurity

I wanted to learn C and C++, but it didn't click for me until I picked up an O'Reilly book. When I went on the O’Reilly platform, I was astonished to find all the books there, plus live events and sandboxes so you could play around with the technology.

Addison B.

Field Engineer

I’ve been on the O’Reilly platform for more than eight years. I use a couple of learning platforms, but I'm on O'Reilly more than anybody else. When you're there, you start learning. I'm never disappointed.

Amir M.

Data Platform Tech Lead

I'm always learning. So when I got on to O'Reilly, I was like a kid in a candy store. There are playlists. There are answers. There's on-demand training. It's worth its weight in gold, in terms of what it allows me to do.

Mark W.

Embedded Software Engineer

Publisher Resources

ISBN: 9787519864422

Cloud Computing

Data Engineering

Data Science

AI & ML

Programming Languages

Software Architecture

IT/Ops

Security

Design

Business

Soft Skills

云端基因组学

by Geraldine A. Van der Auwera, Brian D. O’Connor

Become an O’Reilly member and get unlimited access to this title plus top books and audiobooks from O’Reilly and nearly 200 top publishers, thousands of courses curated by job role, 150+ live events each month,
and much more.

More than 5,000 organizations count on O’Reilly

Julian F.

Addison B.

Amir M.

Mark W.

You might also like

What Successful Project Managers Do

How to Overcome a Power Deficit

The Human Factor in AI-Based Decision-Making

Tips for Designing Effective Presentation Slide Decks

Publisher Resources