第 7 章 用于生物学的 LangChain
本作品已使用人工智能进行翻译。欢迎您提供反馈和意见:translation-feedback@oreilly.com
生成式人工智能与生物学的交叉领域是生命科学领域最具潜力的前沿领域之一,预计在未来 8-10 年内,市场规模将翻两番,达到至少15 亿美元。这一显著的增长轨迹是由重塑生物研究和药物发现过程的革命性技术驱动的。市场增长的部分动力来自药物发现和医疗保健应用,在这些应用中,生成式人工智能大大降低了成本,加快了研发进程。第8章和第 10 章介绍了这些领域的一些用例。制药和生物技术领域占据了一半的市场份额,引领着生成式人工智能应用的普及。
生物领域的 LLMs
文本 LLM 最初设计用于自然语言处理 ,现在正被应用于从基因组学到单细胞分析等生物领域。这项技术可以设计合成基因和基因组,促进创造具有特定所需性状的生物体。这在生物技术领域有着广泛的应用,从开发生物燃料到改良农作物。此外,生成式人工智能还被用于优化 CRISPR-Cas9 等基因组编辑工具,提高其修改遗传物质的精度和效率。
生成式人工智能在基因组学中的一个显著应用是创建合成基因组,同时保留真实基因组数据的统计特性。这种能力在处理有限的数据集时尤为重要,有助于研究人员发现新的基因组模式。在基因组学中,LLMs 帮助解码 DNA 序列,以了解遗传变异、预测功能元件并分析调控序列。DNA 语言模型 (如DNAGPT 和DNABERT )在基因组数据上进行训练,以预测全基因组变异效应、识别顺式调控区域并确定 DNA 蛋白相互作用。DNAGPT 更擅长预测或生成DNA 序列信息的任务,而DNABERT 则更擅长需要了解整个 DNA 序列上下文以进行分类、识别和关系预测的任务。
微调 LLMs 在基因组学、蛋白质组学等各种生物领域都有重要应用。虽然 LLM 最初是为人类语言而设计的,但其学习复杂序列模式的能力使其在生物序列分析(包括 DNA、RNA 和蛋白质建模)中表现出色。这种适应性使它们在基因注释、蛋白质结构预测和生物分子相互作用方面取得了突破性进展。
在转录组学中,LLMs 处理 RNA 序列,研究基因表达和 RNA 结构。RNA-FM 和RNA-MSM 预测 RNA 二级和三级结构,帮助研究人员了解 RNA 折叠和功能。SpliceBERT此外,LLM 还能通过一个专门的模型预测 RNA 剪接事件,这对于从同一基因中生成不同的蛋白质异构体至关重要。LLMs 还能研究影响 RNA 稳定性和功能的 RNA 修饰。BERT-m7G 和Bert2Ome 等模型可识别 RNA 甲基化位点,而CodonBERT 则可预测 mRNA 降解和蛋白质翻译效率。这些应用与基于 RNA 的疗法和疫苗设计尤为相关。
单细胞分析 是另一个极大受益于 LLMs 的生物学领域,因为这些模型有助于对细胞类型进行分类、整合多组学数据以及推断基因调控网络。scGPT 和scBERT 分析单细胞 RNA 测序(scRNA-seq)数据,以确定不同的细胞群并预测细胞状态。这些模型有助于了解组织发育、疾病进展和免疫反应。DeepMAPS 和scMoFormer 可促进多模式分析,从而更好地了解复杂的生物系统。LLMs 还可用于预测基因功能、绘制基因相互作用图谱以及确定潜在的治疗靶点。它们利用注意机制突出基因组中的关键调控元素,有助于功能基因组学和精准医疗。
变压器架构 在蛋白质建模方面尤其具有革命性意义。这些神经网络模型最初是为自然语言处理而开发的,可以检测序列元素之间的复杂关系,而不受顺序计算的限制。注意力机制使这些模型能够理解蛋白质序列中的长程相互作用,类似于语言模型理解文本中的远距离语义联系。 ...
Become an O’Reilly member and get unlimited access to this title plus top books and audiobooks from O’Reilly and nearly 200 top publishers, thousands of courses curated by job role, 150+ live events each month,
and much more.
Read now
Unlock full access