第 4 章. 深入探讨:电子健康记录数据
本作品已使用人工智能进行翻译。欢迎您提供反馈和意见:translation-feedback@oreilly.com
我们已经花了很多时间讨论基础概念,所以我相信你已经准备好开始玩弄一些数据了。 在本章中,我们将深入研究电子健康记录数据。 正如我们在第 1 章中所讨论的,电子健康记录和电子病历在某种程度上可以互换使用。 在本书中,电子健康记录数据是指医院和诊所在提供医疗服务过程中收集的数据。 因此,采集数据的一些主要动机是为了计费、遵守法律规定或与其他护理人员沟通。 这一点必须牢记,因为它会根据使用情况影响数据的质量和意义。
现在,我们再来看看我在第三章电子病历案例研究中介绍的一个数据集。 MIMIC 数据集是一个可公开访问的医院重症监护病房数据集。 虽然大多数人简单地将其称为 "MIMIC 数据",但它是重症监护医疗信息市场数据集。 虽然这个数据集代表了电子病历数据的一个特定子集,但它是真实的数据,反映了我们这个行业在处理真实世界数据时所面临的许多挑战。 我还将讨论 Synthea 合成数据集,但我们不会详细讨论它。
在我们深入研究 MIMIC 数据集之前,我想退一步看看一般的公开访问数据,特别是在去标识化和匿名化的背景下。
可公开获取的数据
从监管要求到隐私,再到数据的复杂性,向公众提供数据面临着许多挑战。 在美国,一个常见的监管障碍是《健康保险可携性与责任法案》(HIPAA),尽管除了 HIPAA 之外,许多州也有自己的要求(如《加利福尼亚消费者隐私法案》),这些要求可能与医疗保健有关,也可能无关。 在欧盟,除了针对具体国家的法规外,还有《通用数据保护条例》(GDPR)。
即使组织完全符合法律要求,仍然存在隐私泄露的风险以及随之而来的政治和公共关系挑战。 例如,2006 年,Netflix 发布了一个去标识化数据集,研究人员随后通过该数据集重新识别了 68% 的审阅者。1 此外,保护医疗系统中患者的隐私还涉及道德和伦理问题。
在本节中,我们将讨论两个数据集。一个是经过去标识化处理的真实数据集。 另一个是以各种数据模型生成的合成数据集。
去身份化与匿名化
去标识化、匿名化和假名化是减轻数据集隐私问题的不同方法。 虽然有公认的定义,但这些术语也由法规、判例法和监管框架来定义。 因此,重要的是要确保了解每种方法的具体要求。
说完这些,让我们来详细了解一下 MIMIC 数据集。
重症监护医疗信息市场
MIMIC 数据集是美国国立卫生研究院资助的一个项目,由哈佛大学和麻省理工学院合作开发。 该数据集始于 2003 年,是一个多参数的重症监护病房患者数据集,并于 2011 年首次向更广泛的社区公开发布。
从那时起,它经历了数次重大迭代,目前的版本为 MIMIC-IV。 每个高级版本(MIMIC-II、MIMIC-III、MIMIC-IV)都是 ,本质上是一个不同的数据集,恰好有重叠的患者群体。 在每个版本中,都有额外的版本--MIMIC-III 的最新版本是 v1.4,而 MIMIC-IV 的最新版本是 v1.0。
MIMIC 数据是一个很好的数据源,包含从人口统计数据、药物、实验室检查到自由文本临床笔记的所有内容。 在某些情况下,还有相关的心电图(ECG/EKG)数据集以及其他床旁监测和生理波形数据。 MIMIC 数据深受数据科学家的青睐,他们希望开发数字生物标记、创建临床自然语言处理算法,甚至开展更传统的临床研究。
在本书中,我们将使用 MIMIC-III,因为 MIMIC-IV 最近才发布。我将简要介绍一下模式和我们将在本书中参考的几个表。 ...
Become an O’Reilly member and get unlimited access to this title plus top books and audiobooks from O’Reilly and nearly 200 top publishers, thousands of courses curated by job role, 150+ live events each month,
and much more.
Read now
Unlock full access