book

云端基因组学

Name: 云端基因组学
ISBN: 9787519864422

by Geraldine A. Van der Auwera, Brian D. O’Connor

April 2022

Beginner to intermediate

486 pages

10h 22m

Chinese

China Electric Power Press Ltd.

Read now

Unlock full access

本书主要内容
本书练习题要求读者具备哪些计算机知识？
排版约定
使用代码示例
O’Reilly在线学习平台（O’Reilly Online Learning）
联系方式
致谢
第1章概述
1.1 生物学和生命科学大数据的希望和挑战
1.2 大数据对基础设施的挑战
1.3 数据分享和分析云生态系统
1.3.1 云托管数据和云计算
1.3.2 生命科学研究平台
1.3.3 基础设施的标准化和复用
1.4 践行FAIR理念
1.5 小结和下一步学习内容
第2章基因组学简介：新手必读
2.1 基因组学入门
2.1.1 基因作为独立遗传单元（从某种程度上讲）
2.1.2 生物学中心法则：从DNA到RNA再到蛋白质
2.1.3 DNA突变的起因和后果
2.1.4 基因组学是基因组内和基因组间变异的清单
2.1.5 大规模系统性分析基因组的难点
2.2 基因组变异2.2.1 以参考基因组为通用框架
2.2.2 变异的物理分类
2.2.3 种系变异和体细胞变异的区别
2.3 生成高通量测序数据
2.3.1 从生物样本到大量读段数据
2.3.2 DNA文库类型：选择合适的实验设计
2.4 数据处理和分析
2.4.1 将读段匹配到参考基因组
2.4.2 变异识别
2.4.3 数据质量和错误源
2.4.4 规格统一：功能等价流水线
2.5 小结和下一步学习内容
第3章生命科学家必备计算技术入门
3.1 基础设施的基本组件和性能瓶颈
3.1.1 几种处理器硬件：CPU、GPU、FPGA和TPU
3.1.2 计算组织的层级：核、节点、集群和云
3.1.3 解决性能瓶颈
3.2 并行计算
3.2.1 并行处理一个简单分析任务
3.2.2 从核到集群和云：多层并行机制
3.2.3 并行需权衡速度、效率和成本
3.3 并行和自动化流水线
3.3.1 工作流语言
3.3.2 常用基因组流水线语言
3.3.3 工作流管理系统
3.4 虚拟化和云
3.4.1 虚拟机和容器
3.4.2云简介
3.4.3 采用云服务从事研究的几个场景
3.5 小结和下一步学习内容
第4章云上第一步
4.1 开通谷歌云账号并创建首个项目
4.1.1 创建项目
4.1.2 核对你的结算账号并激活免费试用额度
4.2 用Google Cloud Shell运行基本命令
4.2.1 登录Cloud Shell虚拟机
4.2.2 用gsutil访问和管理文件
4.2.3 拉取Docker镜像并启动容器
4.2.4 挂载数据卷，从容器内部访问文件系统
4.3 创建自定义虚拟机
4.3.1 创建和配置你的虚拟机实例
4.3.2 用SSH登录虚拟机
4.3.3 验证身份
4.3.4 复制本书材料到你的虚拟机
4.3.5 在虚拟机上安装Docker
4.3.6 构建GATK容器镜像
4.3.7 停用虚拟机，停止烧钱
4.4 配置IGV浏览器，读取GCS桶数据
4.5 小结和下一步学习内容
第5章 GATK入门
5.1 开始用GATK
5.1.1 运行要求
5.1.2 命令行句法
5.1.3 用Spark实现多线程
5.1.4 GATK实操
5.2 动手找变异
5.2.1 用HaplotypeCaller寻找种系SNP和InDel
5.2.2 根据变异上下文注释过滤变异识别结果 (1/2)
5.2.2 根据变异上下文注释过滤变异识别结果 (2/2)
5.3 GATK最佳实践简介
5.3.1 本书涵盖的最佳实践
5.3.2 其他主要应用场景
5.4 小结和下一步学习内容
第6章用GATK最佳实践发现种系短变异
6.1 数据预处理
6.1.1 将读段匹配到基因组参考
6.1.2 标记重复读段
6.1.3 重新校正碱基质量值
6.2 联合发现分析
6.2.1 联合变异识别工作流概览
6.2.2 识别每个样本的变异，生成GVCF文件
6.2.3 整合GVCF文件
6.2.4 用联合鉴定基因型方法处理多个样本
6.2.5 重校正变异质量值，过滤联合识别结果集
6.2.6 改进基因型分配结果并调整其可信度
6.2.7 下一步和延伸阅读
6.3 用CNN过滤法识别单样本变异
6.3.1 CNN单样本工作流概览
6.3.2 采用1D CNN过滤单样本WGS变异识别结果集
6.3.3 采用2D CNN在模型中加入读段数据
6.4 小结和下一步学习内容
第7章用GATK最佳实践发现体细胞变异
7.1 癌症基因组研究面对的挑战
7.2 体细胞短变异（SNV和InDel）
7.2.1 肿瘤—正常组织配对分析工作流概览
7.2.2 创建Mutect2 PoN队列
7.2.3 在肿瘤—正常组织配对上运行Mutect2工具
7.2.4 估计样本交叉污染
7.2.5 过滤Mutect2识别结果
7.2.6 用Funcotator工具注明识别结果的功能性预测效果
7.3 体细胞拷贝数变异
7.3.1 仅有肿瘤样本的分析工作流概览
7.3.2 创建体细胞CNA PoN
7.3.3 去噪
7.3.4 连接片段并识别CNA
7.3.5 附加分析方法
7.4 小结和下一步学习内容
第8章用工作流自动执行分析任务
8.1 WDL和Cromwell系统简介
8.2 安装和配置Cromwell系统
8.3 你的第一个WDL工作流：Hello World
8.3.1 编写最小示例，学习WDL基本句法
8.3.2 在你的谷歌虚拟机上用Cromwell系统运行简单WDL脚本
8.3.3 解释Cromwell输出日志的要点
8.3.4 加个变量并以JSON格式提供输入
8.3.5 增加另一任务，完善工作流
8.4 你的第一个GATK工作流：Hello HaplotypeCaller
8.4.1 探索WDL工作流
8.4.2 生成JSON输入文件
8.4.3 运行工作流
8.4.4 破坏工作流，学习句法检查和错误提示功能
8.5 介绍分散—聚集并行机制
8.5.1 探索WDL工作流 (1/2)
8.5.1 探索WDL工作流 (2/2)
8.5.2 生成图表，实现可视化
8.6 小结和下一步学习内容
第9章真实基因组工作流详解
9.1 神秘工作流1：加入条件语句，提高灵活性
9.1.1 工作流制图
9.1.2 逆向破解条件切换 (1/2)
9.1.2 逆向破解条件切换 (2/2)
9.2 神秘工作流2：模块化和代码重用
9.2.1 工作流制图
9.2.2 拆解套娃 (1/2)
9.2.2 拆解套娃 (2/2)
9.3 小结和下一步学习内容
第10章用Pipelines API运行多个工作流
10.1 GCP平台PAPI服务简介
10.2 直接发送Cromwell作业到PAPI
10.2.1 配置Cromwell，实现与PAPI通信
10.2.2 用PAPI并行运行 HaplotypeCaller工具
10.2.3 在Google Compute Engine 监控工作流执行
10.3 理解和优化工作流的效率
10.3.1 操作粒度
10.3.2 权衡时间和金钱
10.3.3 成本优化建议
10.3.4 针对平台优化和可移植性
10.4 用WDL Runner封装Cromwell和PAPI的执行
10.4.1 WDL Runner设置
10.4.2 用WDL Runner 并行运行HaplotypeCaller工具
10.4.3 监控WDL Runner的执行
10.5 小结和下一步学习内容
第11章在Terra平台快捷运行多个工作流
11.1 Terra入门
11.1.1 生成账号
11.1.2 创建结算项目
11.1.3 克隆预先配好的工作区
11.2 在Terra平台用Cromwell服务器运行工作流
11.2.1 在单个样本上运行工作流
11.2.2 在数据表的多个样本上运行工作流 (1/2)
11.2.2 在数据表的多个样本上运行工作流 (2/2)
11.2.3 监控工作流执行
11.2.4 在数据表定位工作流输出
11.2.5 再次运行同一工作流，展示缓存调用
11.3 运行一个真实、全规模GATK最佳实践流水线
11.3.1 寻找和克隆GATK种系短变异发现最佳实践工作区
11.3.2 检查预加载数据
11.3.3 选数据并配置全规模工作流
11.3.4 启动全规模工作流并监控其执行
11.3.5 下载输出数据的几种方法，或不下载
11.4 小结和下一步学习内容
第12章 Jupyter Notebooks中的交互式分析
12.1 Terra平台Jupyter 服务简介
12.1.1 Jupyter Notebooks概述
12.1.2 Jupyter Notebooks在Terra平台的工作原理 (1/2)
12.1.2 Jupyter Notebooks在Terra平台的工作原理 (2/2)
12.2 开始用Terra平台的Jupyter软件
12.2.1 检查和自定义笔记本运行环境的配置项
12.2.2 以编辑模式打开笔记本并检查内核
12.2.3 运行Hello World单元格
12.2.4 用gsutil工具操作谷歌云存储桶
12.2.5 声明变量，指向本书数据桶的种系数据
12.2.6 设置沙盒并将输出文件存入工作区数据桶
12.3 在嵌入式IGV浏览器窗口查看基因组数据
12.3.1 设置嵌入式IGV浏览器
12.3.2 为IGV浏览器添加数据
12.3.3 设置访问令牌，查看私有数据
12.4 运行GATK命令，学习、测试或解决问题
12.4.1 运行GATK基本命令：HaplotypeCaller
12.4.2 加载数据（BAM和VCF）到IGV浏览器
12.4.3 在嵌入式IGV浏览器解决一个有问题的变异识别结果
12.5 可视化变异上下文注释数据
12.5.1 用VariantsToTable导出感兴趣的注释值
12.5.2 加载R脚本，绘制函数图像
12.5.3 用makeDensityPlot 绘制QUAL值密度图
12.5.4 绘制QUAL和DP值散点图
12.5.5 绘制附有边缘密度的散点图
12.6 小结和下一步学习内容
第13章在Terra平台自己组装工作区
13.1 管理工作区内外数据
13.1.1 以工作区桶为数据仓库
13.1.2 访问你在Terra平台外部管理的私有数据
13.1.3 访问Terra Data Library数据
13.2 用基本组件重建教程工作区
13.2.1 新建工作区
13.2.2 添加工作流到Methods Repository 并将其导入工作区
13.2.3 用JSON文件快速创建配置
13.2.4 添加数据表
13.2.5 填充工作区资源数据表
13.2.6 用数据表创建工作流配置
13.2.7 添加笔记本并检查运行环境
13.2.8 编写工作区文档并分享它
13.3 从GATK最佳实践工作区开始
13.3.1 克隆GATK最佳实践工作区
13.3.2 检查GATK工作区数据表，理解数据组织方式
13.3.3 了解千人基因组高覆盖度数据集
13.3.4 从千人基因组工作区复制数据表
13.3.5 用TSV加载文件从千人基因组工作区导入数据
13.3.6 对联合数据集执行联合识别分析 (1/2)
13.3.6 对联合数据集执行联合识别分析 (2/2)
13.4 围绕数据集，建工作区
13.4.1 克隆千人基因组数据工作区
13.4.2 从Dockstore导入工作流
13.4.3 配置工作流，使用数据表
13.5 小结和下一步学习内容
第14章撰写可完全复现的论文
14.1 案例研究概览
14.1.1 计算可复现和FAIR框架
14.1.2 案例研究的原始研究成果和历史
14.1.3 评估可用信息和关键挑战
14.1.4 设计可复现的实现
14.2 生成合成数据集，替代私有数据
14.2.1 总体方法论
14.2.2 从千人基因组受试检索变异数据
14.2.3 根据真人数据，仿造外显子组数组
14.2.4 改变仿造外显子组
14.2.5 生成最终数据集
14.3 重建数据处理和分析方法论
14.3.1 匹配和变异发现
14.3.2 变异效果预测、排序和变异负荷分析
14.3.3 新实现的分析能力
14.4 通往FAIR的道路漫长又曲折
14.5 总结
附录术语表 (1/2)
附录术语表 (2/2)
作者介绍
封面介绍

Content preview from 云端基因组学

444

｜

第

章

是为具备实际经验的工具开发者做小规模测试和基准测试而准备的。我们很好奇，

这些工具使用门槛这么高，有多少是因为开发者以专家为目标用户开发工具而造成

的，又有多少是因为它们向普通用户的普及较少而造成的。无论如何，我们还没有

见过生物医学研究者个人使用这些工具，来提供我们所构思的这种可复现且扩展原

研究的工作成果。有鉴于此，我们在自己项目中要克服种种困难也就不足为怪。稍

后我们会讨论，正是前面这点进一步促使我们思考如何利用已取得的成果，方便他

人接受以合成数据作为研究的配套材料这一模式。

下节，我们将揭开我们是如何实现这一部分工作的光辉细节。讲解过程，如果我们

感觉穿插讲讲我们遇到的难题，可以为读者提供有价值的洞察力，或可以添几分滑

稽，让我们的讲解更轻松，那么我们偶尔也会停下来讲讲它们。

14.2.2

从千人基因组受试检索变异数据

如前所述，我们决定以千人基因组项目受试的

VCF

文件为基础，实现合成数据模拟

步骤。我们选择该数据集是因为它是完全公开、可以使用的最大基因组数据集，其

副本可以从

GCS

平台免费获取。然而我们所享受的便利到此为止。我们从一开始就

得克服重重困难，头一个原因是千人基因组变异识别结果当时是以多样本

VCF

文件

形式提供，

VCF

文件存放该项目所有受试的变异识别结果，按染色体切分。而我们

所需要的刚好与之相反：一个单样本

VCF

文件，存放该项目每个受试的所有染色体

的数据。

因此，我们首先要实现一个

WDL

工作流，它接受一个受试的标识符，用

GATK

SelectVariants

工具从每个染色体文件抽取变异识别结果 ...

Become an O’Reilly member and get unlimited access to this title plus top books and audiobooks from O’Reilly and nearly 200 top publishers, thousands of courses curated by job role, 150+ live events each month,
and much more.

Read now

Unlock full access

More than 5,000 organizations count on O’Reilly

O’Reilly covers everything we've got, with content to help us build a world-class technology community, upgrade the capabilities and competencies of our teams, and improve overall team performance as well as their engagement.

Julian F.

Head of Cybersecurity

I wanted to learn C and C++, but it didn't click for me until I picked up an O'Reilly book. When I went on the O’Reilly platform, I was astonished to find all the books there, plus live events and sandboxes so you could play around with the technology.

Addison B.

Field Engineer

I’ve been on the O’Reilly platform for more than eight years. I use a couple of learning platforms, but I'm on O'Reilly more than anybody else. When you're there, you start learning. I'm never disappointed.

Amir M.

Data Platform Tech Lead

I'm always learning. So when I got on to O'Reilly, I was like a kid in a candy store. There are playlists. There are answers. There's on-demand training. It's worth its weight in gold, in terms of what it allows me to do.

Mark W.

Embedded Software Engineer

Publisher Resources

ISBN: 9787519864422

Cloud Computing

Data Engineering

Data Science

AI & ML

Programming Languages

Software Architecture

IT/Ops

Security

Design

Business

Soft Skills

云端基因组学

by Geraldine A. Van der Auwera, Brian D. O’Connor

Become an O’Reilly member and get unlimited access to this title plus top books and audiobooks from O’Reilly and nearly 200 top publishers, thousands of courses curated by job role, 150+ live events each month,
and much more.

More than 5,000 organizations count on O’Reilly

Julian F.

Addison B.

Amir M.

Mark W.

You might also like

What Successful Project Managers Do

How to Overcome a Power Deficit

The Human Factor in AI-Based Decision-Making

Tips for Designing Effective Presentation Slide Decks

Publisher Resources