Skip to Content
医疗数据实践操作
book

医疗数据实践操作

by Andrew Nguyen
May 2025
Beginner to intermediate
244 pages
2h 59m
Chinese
O'Reilly Media, Inc.
Content preview from 医疗数据实践操作

第 6 章 机器学习和分析 机器学习和分析

本作品已使用人工智能进行翻译。欢迎您提供反馈和意见:translation-feedback@oreilly.com

到目前为止,我们已经花了很多时间专注于如何思考医疗保健真实世界的数据,以及如何开始对其进行工程设计。 当然,我们对这些数据进行工程设计,是为了能够对其进行分析并从中获取洞察力!当我们中的大多数人(包括我自己)开始使用数据时,我们可能想直接进入机器学习并建立预测模型。 然后,我们发现自己在不断地操作数据,将数据从一个数据帧转换到另一个数据帧。 几乎所有使用数据的库都希望输入数据是数据帧形式,这种表格结构非常适合 CSV 文件和关系数据库中的数据,但不太适合文档或图形数据库中的数据。

因此,我们花了这么多时间研究 RWD 的复杂性,并讨论了图表如何才能发挥最大作用。 我们该如何将其与所有这些需要用整齐的小表格来表示事物的分析工具联系起来呢? 或者,还有其他方法吗?

在本章中,我们将开始讨论如何将 RWD(尤其是图中的 RWD)与分析,特别是机器学习联系起来。 我们从一个简单的方法开始,将图(也称为子图)的一个子集提取到表格/数据框架中。 随后,我们将介绍机器学习管道的整体情况,以及图如何融入探索性数据分析和特征工程(包括特征存储)的过程。 最后,我们通过使用图嵌入将图数据直接与 Deep Learning 集成。考虑到本书的重点,我们不会深入研究机器学习或深度学习本身,因此我们不会对模型进行调优,也不会讨论如何设置或设计网络。

因此,让我们从机器学习的高层次讨论开始。

机器学习入门

在我们深入探讨为分析准备数据的具体细节之前,让我们先简要讨论一下机器学习、Deep Learning 和特征工程。 对于那些在该领域有经验的人来说,这可能是一个回顾,但我的目标是建立一个基本词汇和理解,以帮助为本章的其余部分提供背景。

让我们先来回顾一下特征工程以及它在 Deep Learning 技术的影响下是如何变化的。 如果我们考虑到,在很多方面,特征工程的过程就是将领域知识和上下文结合起来,那么这一点就特别有趣。 当然,有些特征工程是高度抽象的,可以解锁变量之间的高阶交互,但情况总是如此。

什么是功能工程?

我喜欢这样一个概念,即特征工程是对数据进行转换的过程,然后在进行某种分析(通常是机器学习)时选择最相关的数据。 这一过程正逐渐被深度学习技术所取代,在深度学习技术中,大部分特征工程都发生在神经网络本身。 即便如此,特征工程仍有明确的需求,更重要的是,要确保模型开发和验证过程中的处理和转换能够在生产中使用。

虽然特征工程通常是作为开发模型的一部分来讨论的,但我见过太多项目在模型投入生产时失败(或至少在尝试这一过程时失败)。 作为一名受过培训的医学信息学家/信息学家,我通常会从端到端的全局着眼--从如何收集数据到如何将模型集成到临床工作流程中。

临床工作流程整合是一个相当复杂的话题,涉及的不仅仅是按钮位置或屏幕顺序的用户体验(UX)设计。 作为数据和信息学专业人士,我们需要确保我们开发的模型能够真正指导临床实践。 例如,我们可能会开发一个使用最新、最先进的 Deep Learning 算法的模型,该模型在预测三天死亡率(即预测病人将在未来三天内死亡)方面的准确率高达 98%。 然而,除非我们能让临床团队了解病人可能死亡的原因或该采取什么措施,否则这些信息通常是无用的。 特征是我们获取这些见解的第一站。 如果我们能强调最重要的特征与特定器官功能相关,那么我们就缩小了临床所需的搜索空间。 因此,在使用医疗保健 ...

Become an O’Reilly member and get unlimited access to this title plus top books and audiobooks from O’Reilly and nearly 200 top publishers, thousands of courses curated by job role, 150+ live events each month,
and much more.

Read now

Unlock full access

More than 5,000 organizations count on O’Reilly

AirBnbBlueOriginElectronic ArtsHomeDepotNasdaqRakutenTata Consultancy Services

QuotationMarkO’Reilly covers everything we've got, with content to help us build a world-class technology community, upgrade the capabilities and competencies of our teams, and improve overall team performance as well as their engagement.
Julian F.
Head of Cybersecurity
QuotationMarkI wanted to learn C and C++, but it didn't click for me until I picked up an O'Reilly book. When I went on the O’Reilly platform, I was astonished to find all the books there, plus live events and sandboxes so you could play around with the technology.
Addison B.
Field Engineer
QuotationMarkI’ve been on the O’Reilly platform for more than eight years. I use a couple of learning platforms, but I'm on O'Reilly more than anybody else. When you're there, you start learning. I'm never disappointed.
Amir M.
Data Platform Tech Lead
QuotationMarkI'm always learning. So when I got on to O'Reilly, I was like a kid in a candy store. There are playlists. There are answers. There's on-demand training. It's worth its weight in gold, in terms of what it allows me to do.
Mark W.
Embedded Software Engineer

You might also like

图解大模型 : 生成式AI 原理与实战

图解大模型 : 生成式AI 原理与实战

Jay Alammar, Maarten Grootendorst
Biosignal Processing

Biosignal Processing

Stefan Bernhard, Andreas Brensing, Karl-Heinz Witte
软件工程基础

软件工程基础

Nathaniel Schutta, Dan Vega

Publisher Resources

ISBN: 9798341658769