第8章 医疗应用
到目前为止,我们已经使用深度网络来处理图像、文本和时间序列了。虽然大多数示例比较有趣且富有意义,但它们未达到企业级水平。现在,我们将处理一个企业级问题:医疗诊断。之所以进行这个企业级问题的处理研究,是因为医疗数据通常具有其他大型企业未涉及的特性,即专有数据格式、天然的大规模、棘手的分类数据和不规则的特征。
本章将涉及以下主题。
- 医学影像文件及其独特性。
- 处理大型图像文件。
- 从典型医疗文件中提取分类数据。
- 应用非医疗数据“预训练”的网络。
- 扩展训练以适应医疗数据的规模。
获取医疗数据本身就是一项挑战,因此我们将利用一个所有相关从业人员都熟悉的网站——Kaggle。Kaggle上面有很多可以免费获取的医疗数据集,但大多数需要进行相应的注册才能访问。另外,很多数据集只在医学图像处理领域的特定子社区发布,并且有特定的提交流程。Kaggle也许是你能获取重要医疗图像数据集和非医疗图像数据集的最规范化的来源之一。在本章中,我们将特别关注Kaggle的糖尿病视网膜病变检测(Diabetic Retinopathy Detection)竞赛。在该竞赛中,参赛者利用Kaggle网站提供的大量眼底图,对其进行相应的图像处理,并利用机器学习算法对模型进行训练,最后利用测试集对训练得到的模型进行测试,根据测试结果判断该模型的优秀程度。
数据集可从Kaggle官网上下载。这个数据集包含一个训练集和一个盲测试集。训练集用于训练我们的网络,而测试集则用于测试网络。最后将我们的测试结果提交到Kaggle网站上。
由于数据量相当庞大(训练集32 GB,测试集49 GB),因此二者都被分成了多个大小约为8GB的ZIP文件。
此处的测试集是盲测试集,即我们不知道它们的标签。这是为了确保训练网络能够公平地提交测试集结果。 ...
Get TensorFlow机器学习 now with the O’Reilly learning platform.
O’Reilly members experience books, live events, courses curated by job role, and more from O’Reilly and nearly 200 top publishers.