book

医疗数据实践操作

Name: 医疗数据实践操作
Author: Andrew Nguyen
ISBN: 9798341658769

by Andrew Nguyen

May 2025

Beginner to intermediate

244 pages

2h 59m

Chinese

O'Reilly Media, Inc.

Read now

Unlock full access

前言
序言
本书使用的约定使用代码示例O'Reilly 在线学习如何联系我们致谢
1.医疗保健数据简介
企业心态医疗数据的复杂性医疗保健数据来源电子健康记录索赔数据临床/疾病登记临床试验数据数据收集及其对数据科学家的影响前瞻性研究回顾性研究结论
2.技术介绍
Docker 和容器的基本介绍安装和测试 Docker数据库概念介绍ACID 合规性OLTP 系统OLAP 系统SQL 与 NoSQLSQL 数据库(有标签）属性图数据库超图数据库资源描述框架数据库结论
3.医疗保健标准化词汇表
受控词汇表、术语和本体主要考虑因素事前协调与事后协调案例研究示例：电子病历数据常用术语CPTICD-9 和 ICD-10LOINCRxNormSNOMED CT主要收获使用统一医学语言系统一些基本定义概念定向使用 UMLSUMLS 和关系数据库预处理 UMLSUMLS 和属性图数据库UMLS 和超图数据库UMLS 回顾结论
4.深度挖掘：电子健康记录数据
可公开获取的数据重症监护医疗信息市场Synthea数据模型目标数据模型示例案例研究：药物统一用药问题技术深潜连接到 UMLS结构化医疗数据规范化的困难结论
5.深入研究：索赔数据
可公开获取的数据--SynPUF数据模型选择数据模型合并报销单和电子病历数据案例研究：诊断与用药相结合OMOP 与图表合并不同医疗数据源时的注意事项结论
6.机器学习和分析
机器学习入门什么是功能工程？基于图的深度学习以表格形式提取数据要 SQL 还是不要 SQL查询 OMOP 数据从图表到数据框为什么要增加图形的复杂性？利用图表进行机器学习和特征工程图嵌入node2veccui2vecmed2vecsnomed2vec关于嵌入式的最后一些想法基于图表的分析结论
7.医疗保健分析的趋势
联合学习和联合分析联合学习如何运作？为什么选择联合分析/学习？联盟背景下的数据协调挑战图表和联合方法自然语言处理概念提取概念提取之外临床 NLP 工具商业临床 NLP 解决方案临床NLP与其他NLP应用的主要区别结论
8.图表、协调和一些最后的想法
其他类型的医疗保健 RWD数据规范化和统一合并数据集连接信息技术与业务是人的问题，不是技术问题图表可以成为解决方案的一部分图表不是万能的结论

索引
关于作者

Content preview from 医疗数据实践操作

第 4 章. 深入探讨：电子健康记录数据

本作品已使用人工智能进行翻译。欢迎您提供反馈和意见：translation-feedback@oreilly.com

我们已经花了很多时间讨论基础概念，所以我相信你已经准备好开始玩弄一些数据了。在本章中，我们将深入研究电子健康记录数据。正如我们在第 1 章中所讨论的，电子健康记录和电子病历在某种程度上可以互换使用。在本书中，电子健康记录数据是指医院和诊所在提供医疗服务过程中收集的数据。因此，采集数据的一些主要动机是为了计费、遵守法律规定或与其他护理人员沟通。这一点必须牢记，因为它会根据使用情况影响数据的质量和意义。

现在，我们再来看看我在第三章电子病历案例研究中介绍的一个数据集。 MIMIC 数据集是一个可公开访问的医院重症监护病房数据集。虽然大多数人简单地将其称为 "MIMIC 数据"，但它是重症监护医疗信息市场数据集。虽然这个数据集代表了电子病历数据的一个特定子集，但它是真实的数据，反映了我们这个行业在处理真实世界数据时所面临的许多挑战。我还将讨论 Synthea 合成数据集，但我们不会详细讨论它。

在我们深入研究 MIMIC 数据集之前，我想退一步看看一般的公开访问数据，特别是在去标识化和匿名化的背景下。

可公开获取的数据

从监管要求到隐私，再到数据的复杂性，向公众提供数据面临着许多挑战。在美国，一个常见的监管障碍是《健康保险可携性与责任法案》（HIPAA），尽管除了 HIPAA 之外，许多州也有自己的要求（如《加利福尼亚消费者隐私法案》），这些要求可能与医疗保健有关，也可能无关。在欧盟，除了针对具体国家的法规外，还有《通用数据保护条例》（GDPR）。

即使组织完全符合法律要求，仍然存在隐私泄露的风险以及随之而来的政治和公共关系挑战。例如，2006 年，Netflix 发布了一个去标识化数据集，研究人员随后通过该数据集重新识别了 68% 的审阅者。¹ 此外，保护医疗系统中患者的隐私还涉及道德和伦理问题。

在本节中，我们将讨论两个数据集。一个是经过去标识化处理的真实数据集。另一个是以各种数据模型生成的合成数据集。

去身份化与匿名化

去标识化、匿名化和假名化是减轻数据集隐私问题的不同方法。虽然有公认的定义，但这些术语也由法规、判例法和监管框架来定义。因此，重要的是要确保了解每种方法的具体要求。

说完这些，让我们来详细了解一下 MIMIC 数据集。

重症监护医疗信息市场

MIMIC 数据集是美国国立卫生研究院资助的一个项目，由哈佛大学和麻省理工学院合作开发。该数据集始于 2003 年，是一个多参数的重症监护病房患者数据集，并于 2011 年首次向更广泛的社区公开发布。

从那时起，它经历了数次重大迭代，目前的版本为 MIMIC-IV。每个高级版本（MIMIC-II、MIMIC-III、MIMIC-IV）都是，本质上是一个不同的数据集，恰好有重叠的患者群体。在每个版本中，都有额外的版本--MIMIC-III 的最新版本是 v1.4，而 MIMIC-IV 的最新版本是 v1.0。

MIMIC 数据是一个很好的数据源，包含从人口统计数据、药物、实验室检查到自由文本临床笔记的所有内容。在某些情况下，还有相关的心电图（ECG/EKG）数据集以及其他床旁监测和生理波形数据。 MIMIC 数据深受数据科学家的青睐，他们希望开发数字生物标记、创建临床自然语言处理算法，甚至开展更传统的临床研究。

在本书中，我们将使用 MIMIC-III，因为 MIMIC-IV 最近才发布。我将简要介绍一下模式和我们将在本书中参考的几个表。 ...

Become an O’Reilly member and get unlimited access to this title plus top books and audiobooks from O’Reilly and nearly 200 top publishers, thousands of courses curated by job role, 150+ live events each month,
and much more.

Read now

Unlock full access

More than 5,000 organizations count on O’Reilly

O’Reilly covers everything we've got, with content to help us build a world-class technology community, upgrade the capabilities and competencies of our teams, and improve overall team performance as well as their engagement.

Julian F.

Head of Cybersecurity

I wanted to learn C and C++, but it didn't click for me until I picked up an O'Reilly book. When I went on the O’Reilly platform, I was astonished to find all the books there, plus live events and sandboxes so you could play around with the technology.

Addison B.

Field Engineer

I’ve been on the O’Reilly platform for more than eight years. I use a couple of learning platforms, but I'm on O'Reilly more than anybody else. When you're there, you start learning. I'm never disappointed.

Amir M.

Data Platform Tech Lead

I'm always learning. So when I got on to O'Reilly, I was like a kid in a candy store. There are playlists. There are answers. There's on-demand training. It's worth its weight in gold, in terms of what it allows me to do.

Mark W.

Embedded Software Engineer

Publisher Resources

ISBN: 9798341658769

Cloud Computing

Data Engineering

Data Science

AI & ML

Programming Languages

Software Architecture

IT/Ops

Security

Design

Business