通过弱监督学习揭示医学影像中的秘密

星星科技指导员 2023-05-18 853

描述

将医学影像交给人工智能 (AI) 来分析，可以比人类专家更快、更准确地检测和测量出异常情况，推动基于影像的医疗诊断更进一步发展。要借此来改善患者的治疗效果并确立针对性的治疗方法，就必须建立起在不同人群中具有普遍性的高质量AI模型。然而，要建立这样的AI模型，就离不开大量数据的支持，并且这些数据还需要经过精心标注，才能供机器来学习。

现在，我们可以通过深度学习 (DL) 的一个分支——弱监督学习来完成AI的训练。这项机器学习技术可以降低对数据标注的完整性和准确性要求，帮助医生更轻松地获得更加深入的信息。用于弱监督学习的数据只需进行更容易实现的粗略标注 (例如只需标注整个影像，而不必标注影像中细分的关键区域) ，并且学习过程中可以充分利用预训练模型和常见的可解释性方法。本文中，我们将研究数据管理在弱监督学习中发挥的重要作用。

医学影像的标注并非易事

医疗行业中的影像标注存在着许多困难。首先，医学影像本身以及相关的检查结果数据往往存储在不同的系统中，导致数据标注工作困难重重，也就难以获得经过标注的数据。例如，来自计算机断层扫描 (CT) 或磁共振成像 (MRI) 的影像数据可能存储在医院系统中，但相关的活检或肿瘤切除检查结果往往会存储在病理实验室中，而这些实验室可能位于医院之外的私人诊所或检测机构。这时，如果要核对某些数据和标注的话，虽然做法上可行，但获取并汇总数据的工作可能会花费大量时间，尤其是在涉及不止一家私人诊所或检测机构的情况下。

而且，要在影像中寻找并标记出疾病发生和进展的迹象 (生物标志物) ，本身就是一件极其耗时并且复杂的事情，因为这些数据必须逐个像素地进行标注，最终的标记数量可达上千个。如果需要通过算法来分割影像或者定位到特定区域 (如病变或手术边界) 的话，这一问题尤为严重。这样的过程往往需要耗费大量成本，因为医学影像标注通常要借助专业知识才能进行，而且MRI和CT影像还需要做三维标注。这两项缺点加在一起，使医学影像的标注成为了一项成本不菲的工作，而且还难以通过外包来完成。

由于标注过程需要用到专业知识，标注的质量也会因标注人员对这些知识掌握程度的不同而发生变化，进而影响到深度学习模型的最终表现。对于数据标注而言，标注的准确性是一大问题。通常情况下，经验不足的放射科医生或住院医师会接受数据标注培训，但他们的标注准确度显然比不上有着数十年工作经验的临床医生。此外，阅片人员所表现出的差异也会影响到标注的结果：一方面，不同的阅片人员对同一幅影像的解读会有细微差异；另一方面，同一个阅片人员如果在不同时间标注同一幅影像，最终结果也会有细微的区别

最后，人工标注这件事本身也会限制最终结果。机器学习的一大优势在于模型可以发现人类无法察觉的规律，然而人工标注终究依赖于人工输入，模型最终输出的结果很容易因此而受到限制。例如，AI如果只能复制人类对某些任务的想法，那么它就很可能无意中把某个人的偏见也复制过来。此外，输入数据中某些看似无关区域的特征也可能具有预测性，但由于它们不在人为选定的关注区域内，因而会直接被抛弃。例如，疾病的显著指征完全可能出现在关注区域周边的其他组织中，甚至可能会出现在附近的其他器官中。

运用弱监督学习来进行训练

在上述场景中，我们更希望AI可以接受更加笼统的标注（例如一幅影像中是否包含癌症组织或其他疾病指征），然后再由模型来找出其中最能说明问题的特征。这正是弱监督学习的用武之地。

弱监督学习是深度学习的一个分支，旨在通过更少、更粗略的标注来生成性能良好的深度学习模型。这些标注大致可以分为三大类：不完整、不精确和不准确的标注。这里使用“大致”一词是因为单个数据集中可以结合使用多种标注方法，并且弱监督标注的目的就是根据需要来解决各种组合问题。

不完整的标注通常表现为数据集的一部分被标注，而其余部分未被标注。

不精确的标注则是直接标注出影像的整体结果，不对特定关注区域进行分割。

不准确的标注源于标注人员缺乏专业知识，以及某些疾病指征之间的模糊性或不确定性。

有趣的是，如果通过更粗略、更容易实现的标注就可以产生不错的结果，那么不精确的标注可能比不完整或不准确的标注更有用。不精确的标注不容易出错，因为它不需要达到像其他标注那样的详细程度，而且它也更容易获得：例如只需从扫描报告中提取出有关癌症分期的信息，就可以表明该扫描影像包含癌症组织，而不必再通过人工的方式把癌变区域从三维影像中“抠”出来。这些标注自身虽然“不精确”，但却可以让数据集获得更多可用的标注，进而提升准确度。尤为重要的是，通过这种标注方式，我们就不必再为了标出一切相关的细枝末节而花大价钱雇佣或培养高度专业的人员。这种方式最终可以提高标注的准确性，毕竟给出一个二选一的答案远比详细描绘出所有特征来得容易。

要在常见的医学影像应用 (例如检测和定位关键区域) 中利用这种不精确的标注，比较常见的做法是利用以下两步流程：

打造主干模型，例如训练一个深度学习模型来预测由不精确的标注所描述的类别。

在对特定扫描影像进行预测的模型中，使用像素属性方法 (也称为显著性或可解释性方法) 将模型决策的最相关区域突显出来。

使用卷积神经网络作为主干

医疗领域经常需要用到影像数据，因而将卷积神经网络 (CNN) 用作弱监督学习主要的基础深度学习框架就是自然而然的选择。CNN的工作原理是通过学习来减少医学扫描影像中需要处理的像素量 (通常是将三维图像降维表示) ，然后将这些像素对应到类别标注。

在弱监督学习中，我们还可以结合使用多种方法。您可以使用自己的数据集训练新的网络 (如果该数据集足以提供其他类似数据源的优势) ，也可以使用预先训练好的网络来对新任务进行迁移学习。例如，ResNet50和VGG16就是利用源自日常生活的数百万张图片来训练的两种CNN架构。虽然它们并没有使用医学影像进行过训练，但它们仍然非常有用，因为在模型早期阶段的层中学习到的卷积过滤器往往涉及的是通用的特征，如线条、形状和纹理等，这对医学影像依然是有用的。

要使用这些模型之一来进行迁移学习，只需去掉后期阶段的类别预测层，然后用代表新的医学影像任务所需类别的层来重新初始化即可。虽然模型的最终目标是让输出结果能够突显出影像中的相关物体和值得关注的区域，但首先进行的第一步只需预测影像中是否存在这些值得关注的区域即可。

弱监督定位的AI可解释性

当深度学习主干完成训练，可以准确预测是否存在值得关注的类别后，下一步便是使用某种AI可解释性方法来分割关注区域。这些可解释性方法 (也称为像素属性方法) 旨在深入了解深度学习模型在做出某种预测时在图像中看到的内容，其输出是某种形式的图像 (通常称为显著图) ，可以根据最终目标以多种不同的方法计算得出。

在这些方法中，基于梯度的显著图是最常用的方法之一，其核心包括输出预测以及对所有构成该输出的神经元进行检测。根据方法的不同，这种检测可以一直追溯到第一个输入层——标准梯度 (Vanilla Gradient) ，也可以停留在某个较后期的层，如神经网络架构中的最后一个卷积层——GradCAM 。其他的方法可以实现不同的目的，例如产生更平滑的关注区域、改善更简单的方法存在的局限性，或在所需特征周围进行更紧密的分割。

结语

就在不久前，识别医学影像中的生物标志物依然还需要大量以复杂方式进行标注的影像数据。然而，弱监督学习等技术降低了对数据标注完整性、精确性和准确性的要求，从而能够轻松揭示出以往需要耗费大量时间、借助高度专业的知识才能发现的问题。弱监督学习只需采用更容易实现的粗略标注 (例如只标注整个影像，而不是标注影像中细分的关键区域) 就可以运作。它可以重新利用预先训练好的CNN模型，然后使用常见的可解释性方法，根据预测的类别将值得关注的区域突显出来。在这些特性的支持下，便可以将使用医学影像数据训练的模型用于各种应用，无需进行大量像素级标注。这不仅节省了时间和成本，更有可能发现临床医生以前未曾了解的预测特征，从而提高诊断的准确性、改善患者的治疗效果。

审核编辑：郭婷

打开APP阅读更多精彩内容