A Reinforcement Learning Framework for Medical Image Segmentation翻译

摘要
本文介绍了一种使用强化学习方案进行医学图像分割的新方法。我们使用这个新颖的想法作为一种有效的方法来最佳地找到合适的局部阈值和结构元素值，并在超声图像中分割前列腺。强化学习代理使用超声图像及其手动分割版本，并采取一些行动（即不同的阈值和结构元素值）来改变环境（分割图像的质量）。为代理提供客观确定的标量强化信号。代理使用这些客观的奖励/惩罚来探索/利用解决方案空间。使用这种方式获得的值可以用作填充 Q 矩阵的宝贵知识。强化学习代理也可以将这些知识用于类似的超声图像。结果证明了在医学图像分割领域应用强化学习的巨大潜力。
介绍
医学成像中的许多应用都需要对图像中的对象进行分割 [1]。超声成像是临床应用的重要图像模式。在超声图像中准确检测前列腺边界对于诊断任务至关重要 [2]。然而，在这些图像中，对比度通常很低，前列腺和背景之间的界限是模糊的。此外，散斑和弱边缘使得超声图像固有地难以分割。前列腺边界通常是从经直肠超声 (TRUS) 图像中提取的 [2]。当存在具有相似灰度级和纹理的阴影附着到前列腺和/或缺少边界段时，前列腺分割方法通常具有局限性。在这些情况下，分割误差可能会大大增加。另一个障碍可能是，如果采用学习技术并且样本是由专家在监督方法中完成的，则缺乏足够数量的训练（黄金）样本。基于活动轮廓的算法已经非常成功地实现，主要缺点是它们依赖于用户交互来确定初始蛇。因此，更通用的方法应该需要最低级别的用户交互和训练数据集。
考虑到上述因素，我们引入了基于强化学习 (RL) 的新算法来局部分割超声图像中的前列腺。 RL 最重要的概念是基于与环境交互的反复试验学习 [3]、[4]。它使 RL 代理适用于动态环境。它的目标是找出一种控制动态过程行为的行动策略，由指示它执行所需任务的信号（强化）引导。
在将此方法应用于医学图像分割的情况下，代理采取一些行动（即，形态算子的阈值和结构元素的不同值）来改变其环境（分割对象的质量）。此外，状态是根据该分割对象的质量定义的。首先，代理获取图像并应用一些值。然后它接收基于其结果与目标图像的比较而获得的客观奖励或惩罚。代理试图了解哪些动作可以获得最高的奖励。在此阶段之后，基于累积的奖励，代理也对类似图像具有适当的知识。
在我们的算法中，我们使用这种增强的局部参数调整来分割前列腺。所提出的方法将通过使用强化学习代理来控制局部阈值和后处理参数。这项工作的主要目的是证明这种能力，即作为一种智能技术，强化学习可以使用非常有限的样本进行训练，并且还可以在在线训练中获得额外的知识。与需要大量训练集或大量专家或先验知识的其他方法（如监督方法）相比，这是一个主要优势。
本文的组织如下：第二部分是对强化学习的简短介绍。第三节描述了所提出的方法。第四部分介绍了结果，最后一部分，第五部分总结了工作。
强化学习
强化学习 (RL) 基于人工智能通过与其环境交互来学习的思想 [3]、[4]。它允许代理在特定上下文中自动确定理想行为，从而最大限度地提高与预定义度量相关的性能。几个组成部分构成了强化学习背后的总体思路。 RL 代理是流程的决策者，并尝试采取环境认可的行动。它根据所采取的行动从环境中获得奖励或惩罚。 RL 代理通过探索和利用来发现哪些动作会带来更多奖励。代理还接收有关环境状态的信息。在学习过程开始时，RL 代理不知道采取不同行动的可能性有多大 [3]。它采取各种行动，并观察结果。一段时间后，代理探索了许多带来最高奖励的动作，并逐渐开始利用它们。事实上，代理获取动作的知识，并最终学会执行最有回报的动作。在此过程中，它试图满足与环境状态相关的某个目标。使用函数定义奖励和惩罚可以客观地定义它们；或由有经验的操作员提供给代理时主观获得。
动作策略 π 是代理用来选择改变当前状态的动作的策略。代理人必须在即时回报和长期回报之间做出权衡。它必须探索看不见的状态以及通过选择它已经知道的来最大化其回报的状态。因此，需要在对未知状态的探索和对熟悉（奖励）状态的利用之间取得平衡。
强化学习在线学习，可以在执行所需任务的同时不断学习和适应。这种行为对于许多情况很有用，例如医学成像，在这些情况下很难或不可能获得精确的学习样本 [3]、[7]。
RL 代理的设计基于手头问题的定义。图 1(a) 和 1(b) 分别显示了强化学习的一般组件和我们提出的方法中使用的模型。作为过程决策者的代理会观察环境状态。然后它根据与当前观察和累积强化（奖励/惩罚）相关的先前经验采取行动。最后，代理根据所采取的行动从其环境中获得奖励或惩罚。
Q-Learning 是 Watkins 在 1989 年提出的一种流行技术，是一种用于行动策略学习的迭代方法[5]、[6]。这种 off-policy 方法是时间差异学习中最常用的 RL 方法之一 [4]。
玻尔兹曼策略经常用于估计在给定状态 s 下采取每个动作的概率。该策略中使用的概率计算如下[3]：

在这个方程中，θ 是温度。它以高值初始化并随着迭代次数的增加而减小。 Q-Learning 还有其他策略，例如 ε-greedy 和 greedy。 ε-greedy 在某些应用中比 greedy 表现更好，因为在 greedy 策略中没有探索所有动作，而 ε-greedy 选择给定状态下 Q 值最高的动作，概率为 1 − ε 并选择其他动作概率为 ε 。考虑访问状态 st 和遵循诸如 Boltzman 探索之类的行动策略，Q-learning 算法可以定义为表 I 中给出的。
提议的方法
强化学习已经用于其他一些图像处理应用程序 [7]、[8]、[9]、[10]。在本文中，我们表明它使我们能够以一种新的方式实现前列腺分割的任务。
在我们提出的方法中，我们将超声图像划分为几个子图像，并使用两个主要阶段来局部分割感兴趣的对象。我们首先使用局部值对子图像进行阈值处理。由于一些干扰因素，例如散斑和低对比度，我们通常在阈值处理后会有很多伪影。因此，我们在第二阶段使用形态学开放对每个阈值子图像进行局部后处理。强化学习代理为每个单独的子图像确定局部阈值和结构元素的大小。
构建 RL 代理，三个组件；应该定义状态、动作和奖励。可以根据状态和动作的定义构造 Q 矩阵。 RL 代理使用超声图像及其手动分割版本开始其工作。代理处理每个子图像，并使用黄金标准（从手动分割版本获得）探索该子图像的解决方案空间。在此期间，RL 代理单独更改每个子图像的局部阈值和结构元素的大小。通过采取每个动作，代理会收到该状态-动作对的相应奖励/惩罚，并更新 Q 矩阵中的相应值。在此过程之后，代理探索了许多动作并尝试利用最有价值的动作。该方法特别适用于前列腺超声图像，其中来自患者的多个图像具有固有的相同特征。在这种情况下，我们可以使用其中的一些并获取他们的知识来分割其他的，而不是为每个单独的输入图像调整参数或使用大型训练数据集来覆盖所有可能的情况。当代理尝试分割新图像时，在在线训练期间获得额外知识也很有用。
图 2 (a) 和 (b) 说明了前列腺超声图像及其手动分割版本。它们可以用作样本参考图像以获取 RL 代理的知识。

A. 定义状态
为了定义状态，考虑了以下特征：

子图像的位置：为了局部分割图像，我们将其分为 MS 行和 NS 列（完全是 MS ×NS 子图像），并且 RL 代理分别处理它们中的每一个。每个子图像的位置用作状态参数。
2）存在与前列腺相关的部分和/或缺失的边界段：通常，当图像包含与前列腺相关的灰度相似（通常由阴影引起）的不相关部分和/或缺失的边界段时，前列腺分割方法有局限性.当我们对子图像进行阈值处理时，这些附加和缺失的部分也可能会被揭示。这些部分在前列腺边界上的存在和强度可以作为状态参数进行评估。
在我们提出的算法中，我们使用一种方法来表示前列腺上存在多少这些部分。为了识别分割对象（在我们的例子中是前列腺）边界的不规则性，我们使用轮廓特征结合基于卡尔曼滤波器的估计器 [11]、[12]。
签名是轮廓的功能表示，由各种技术生成[12]、[13]。在我们的方法中，我们使用基于距离与角度的签名。在该方法中，我们假设原始图像中前列腺的几何中心由用户给出，边界上的点到对象几何中心的距离用2π周期函数表示。通常，在签名中，一个角度 θ 可能有多个距离 r，我们可以将其表示为包含值 0 和 1 的二维函数 f(θ, r)。但是因为我们想找到不规则开始的点（由于到附加部分和缺失的边界段），对于每个角度，我们使用最近的对应轮廓点作为测量数据。使用这种方法，签名总是可以描述为一维函数。
因为我们使用对象形状的几何中心，所以这种表示对于平移是不变的。我们还对 r 进行归一化以使这个变换尺度不变。因为我们只需要将签名路径中的突然变化检测为不规则点，所以我们的方法对方向也不敏感。
要找到对应于不规则部分的点，我们可以
图 2. (a) 原始超声图像，(b) 其手动分割版本
使用基于卡尔曼滤波器的估计器 [11]。我们可以使用此过滤器的一些属性来评估对象签名上的数据并检测附加和/或缺失部分的存在。为了实现这种技术，我们将签名跟踪问题模拟为动态跟踪系统。在该系统中，位于分割对象签名上的数据用作跟踪滤波器的输入（测量数据）。使用这样的估计器，卡尔曼滤波器可以跟踪整个周期的签名轨迹。签名上的每个数据都带来了当前和未来数据的更新信息。我们将其模拟为一维动态运动。对于这个运动，我们可以考虑位置和速度作为描述系统状态的变量。使用这种方法，我们可以估计被分割对象边界上的位置和最终的突变。
在我们的例子中，我们有一个位置变量和一个速度变量。我们根据位于签名上的数据来表示状态变量。每当我们想要提取状态参数时，我们可以使用整个分割区域的几何中心 O 来定义这样的状态变量，并考虑以下状态向量：

其中r是几何中心O（xc，yc）和位于前列腺边界上的像素（xp，yp）之间的距离（特征值）。对于r的每个值，在垂直轴和r之间有一个对应的角度θ。因此，可以考虑r、˙r和θ的以下方程：
其中˙r是径向速度。使用上述状态向量，我们用θ表示检测对象特征上的序列数据。该估计器认为离散动态模型包含状态和测量方程：

其中 Wk ∼ N(0,Qk) 和 Vk ∼ N(0,Rk) 分别是过程和测量噪声。 T 是表示状态和测量方程变化的区间。 T 的值不影响最终结果，因此为简单起见，我们可以将其选择为 T = 1。 R 和 Q 的值分别是测量值和过程噪声协方差的平方。半径中的加速度被建模为零均值、白色、高斯噪声 W。此外，基于边界像素的位置计算的测量数据 Zk 被假定为实际位置的噪声版本。
卡尔曼滤波器使用阈值图像中分割对象的签名开始估计。在每次连续迭代中，签名上的点（对应于沿前列腺边界的点）用作测量数据，卡尔曼滤波器估计下一个 r 。这些预测值确定一个点作为签名上的下一个点。它还为下一次迭代预测 ˙r。当我们进行下一次迭代时，签名上的新数据是过滤器的新测量数据。将此数据与前一次迭代的预测位置进行比较。如果它们之间有足够的相关性，则合并测量数据以更新过滤器状态，否则根据前列腺的形状将预测点视为测量数据并且过滤器开始下一次迭代。为了测量相关性，我们实现了预测数据和测量数据之间的关联过程。对于这个关联过程，我们使用区间 δr，即预测点周围的所谓“关联区间”。只有位于签名上和此间隔内的数据才被视为更新过滤器的有效测量值。为了获得良好的性能，关联间隔必须是自适应的。这意味着它的大小必须变化。它可以根据卡尔曼滤波器的协方差进行更改，以便最大限度地增加有效数据的存在并最大限度地减少无效数据。在一维问题中，它可以表示为以下形式：

L 的值是一个常数，α 是卡尔曼滤波器协方差的元素。在关联区间内没有数据的情况下，我们需要捕获它。因此L的值应该逐渐变大。图 3 显示了前列腺边界上一个样本点的 r 、θ 和关联区间。

当边界到达一个附加的阴影，或者遇到一个缺失的边界段时，像素的路径就会发生突然的变化。这些急剧变化被认为是跟踪过程的新路径。经过几次迭代，卡尔曼滤波器检测到这种情况不属于真实路径，因为数据与遵循的路径不相关。关联间隔变大，直到它再次捕获与预测点具有足够相关性的对象签名上的真实数据。使用关联技术检测属于前列腺边缘阴影和缺失片段的数据。
在边界平滑变化的区域，测量数据放在关联区间内，矩阵R中的测量噪声值应该很小。在关联门内没有数据的情况下，我们无法确定测量数据的有效性。因此，在这些情况下，R 中的测量噪声值应该很大。此外，矩阵 Q 中的过程噪声值模拟了估计点周围的小变化。
图 4 (a) 说明了阈值化后可能会显示的不相关部分。在该图中，部分 AB、CD 和 GH 是附加部分，而 EF 是缺失的边界段。图 4 (b) 显示了用于制作签名的点，因此用于卡尔曼滤波器。图 4© 还显示了卡尔曼滤波器对部分 AB 中分割对象的签名的结果。边界滤波器的估计标有“×”号。上述过程需要应用于整个分割对象。因此，为了找到与附加部分和缺失部分对应的点，我们查看整个分割图像。当我们检测潜在点时，我们注意到它们位于哪个子图像中并遵循本地操作。
使用这种方法，如果前列腺边界上存在附着或缺失的部分，我们可以估计其厚度为：
∆thickness = 附加或缺失零件的厚度
该厚度的离散值用作参数来定义 RL 代理的状态。
B. 定义行动
对于每个子图像，代理必须调整阈值和用于形态学开放的结构元素的大小。这可以通过增加和减少为每个子图像分配的局部阈值来完成。我们可以添加/减去特定值 (±∆Tr) 来增加/减少阈值 (Tr)。我们也可以使用更简单的方法，在每次迭代的最大和最小灰度级之间取一些预定义值（T1，T1，…，Tn）。对于形态学开放，我们在特定间隔内增加/减少结构元素的大小或在一些预定义值（s1，s2，…，sn）中进行选择。
C. 定义奖励/惩罚
为了定义一个客观的奖励/惩罚，我们需要有一个标准来判断对象在每个子图像中的分割程度。为此，我们可以使用多个标准。一种直接的方法是根据分割对象的质量比较动作前后的结果。为了衡量每个子图像的质量，我们注意到动作后质量的变化程度。对于每个子图像，对于分割对象质量的高增加，代理会获得高奖励，对于中等增加，它收到的奖励较少，对于质量下降，代理将受到惩罚：

其中 D∆ 是采取行动前后质量度量之间的归一化差异，该差异是根据附加或缺失部分的增加或减少自动确定的。在这个等式中，1 和 2 是常数值。
D. 离线程序和测试
现在系统已经设计完成，可以开始使用参考图像及其分割版本。状态和动作分别基于我们在 III-A 和 III-B 部分中设计的内容。使用手动分割版本可以获得完美的输出图像。对于奖励/惩罚函数，我们使用相同的等式 12，但对于每个子图像的质量度量，我们计算在采取行动后与完美输出图像的相似性改变的程度。为了测量这种相似性，我们可以计算完美输出图像和 RL 代理分割的图像中相同像素的百分比。
在此过程中，系统必须探索参数空间。可以使用带有高温或 ε-贪婪策略的 Boltzman 策略来实现。经过足够多的迭代后，Q 矩阵会填充适当的值。这意味着代理可以估计每个给定状态的最佳动作。然后我们可以在新样本上使用该系统。代理必须为每个子图像找到合适的阈值和后处理参数（结构元素的大小），以便正确分割前列腺。系统根据它已经获得的知识采取行动。在有限次数的迭代之后，系统可以识别最佳值并分割前列腺。

6. 结果与讨论
在本节中，我们将介绍并讨论所提出方法的结果。图 2(a) 和 (b) 中所示的超声和手动分割版本可用作样本。我们实施了 ε-greedy 策略来探索/利用解决方案空间。超声图像被分成 MS = 3 行和 NS = 4 列。厚度的离散级别数（如过度分割和欠分割）设置为 9。因为在我们的例子中有 12 个子图像，所以总共有 9 × 12 = 108 个状态。对所有子图像使用总共 5000 次迭代训练 RL 代理。阈值动作被定义为增加/减少当前局部阈值的特定值。该值等于每个子图像的最大和最小灰度级之间的差值的 1 10 或 0 表示没有变化。对于后处理操作（形态学开运算），我们在值 0、5、10 或 20 中选择结构元素的大小。对于奖励的计算，我们选择 1 = 2 = 10（参见方程 12）。在执行程序后，Q 矩阵被填充了适当的值。事实上，代理获得了足够的知识来识别每个子图像的最佳值。在测试阶段，我们使用了来自同一患者的 6 个相似的样本图像来验证分割结果。图 5 显示了这些测试图像（图像 I1-I6）。在所有情况下，经过有限次数的迭代（对于进行的实验通常少于 20 次），代理可以分割前列腺并终止该过程。为了定量评估我们的结果，我们使用了基于误分类率的相似性度量 η 作为图像分割 [14]、[15] 中的一般标准：

其中 BO 和 FO 表示完美图像的背景和前景（手动分割），BT 和 FT 表示结果图像中的背景和前景区域像素，|.| 是集合的基数。表 II 显示了这些图像的汇总结果。

表 II 显示，对于简单的情况，所提出的方法具有可接受的结果，可用作微调分割算法的输入。例如，所提出方法的结果可以用作 [16] 中引入的著名方法的初始蛇形或用作 [17] 中作者引入的方法的粗略估计。即使在原始图像质量好的某些部分，所提出方法的结果也可以与最终分割相匹配。

结论
在这项工作中，提出了一种作为前列腺分割新思想的强化学习方法，并说明了一些结果。首先，将图像划分为一些子图像。然后在离线阶段，代理采取一些行动（即改变阈值和结构元素的大小）来改变每个子图像中的环境（分割部分的质量）。在此阶段之后，代理对每个子图像的每个可能状态采取具有最大奖励的行动。它可以根据积累的知识为具有相似特征的输入图像选择合适的值。所提出的方法可以针对医学图像中的对象分割进行训练，以达到可接受的性能水平。这种方法的想法有可能被用作主要的分割方法，或者作为服务其他分割方法的中间阶段。该方法应用于一些类似的包含前列腺的测试超声图像。基于一个简单的相似性度量，我们展示了所提出方法的有效性。我们未来的工作将集中在算法的扩展上。将研究子图像数量的自适应选择以及更多和鲁棒特征的集成。将测试添加由 RL 代理控制的噪声过滤等其他操作。此外，必须应用更合适的质量度量（通常用于医学成像）来更准确地评估性能。

A Reinforcement Learning Framework for Medical Image Segmentation翻译相关推荐

论文代码解读 Hierarchical Reinforcement Learning for Scarce Medical Resource Allocation
论文解读论文笔记 Hierarchical Reinforcement Learning for Scarce Medical Resource Allocation_UQI-LIUWJ的博客-CS ...
【论】A Deep Reinforcement Learning Framework for Rebalancing Dockless Bike Sharing Systems
A Deep Reinforcement Learning Framework for Rebalancing Dockless Bike Sharing Systems 摘要自行车共享为旅行提供了 ...
[未]DRN: A Deep Reinforcement Learning Framework for News Recommendation
DRN: A Deep Reinforcement Learning Framework for News Recommendation DRN:一个新闻推荐的深度强化学习框架参考链接:https: ...
DRN: A Deep Reinforcement Learning Framework for News Recommendation (2018)
文章目录 1. DRN: A Deep Reinforcement Learning Framework for News Recommendation (2018) (0) 个人小结 (1) 研究目 ...
论文阅读：DRN: A Deep Reinforcement Learning Framework for News Recommendation
文章目录摘要一.Introduction 1.引入原因 2.结构框架二.相关工作 1.新闻推荐算法 2.推荐中的强化学习 3.问题定义三.实现原理 1.模型框架 2.特征构造 3.深度强化推荐 ...
【阅读笔记】Suggestive Annotation: A Deep Active Learning Framework for Biomedical Image Segmentation...
Suggestive Annotation: A Deep Active Learning Framework for Biomedical Image Segmentation 作者:Lin Yan ...
[深度学习论文笔记]Modality-aware Mutual Learning for Multi-modal Medical Image Segmentation
Modality-aware Mutual Learning for Multi-modal Medical Image Segmentation 多模态医学图像分割中的模态感知互学习 Publish ...
ActionSpotter Deep Reinforcement Learning Framework for Temporal Action Spotting in Videos
ActionSpotter: Deep Reinforcement Learning Framework for Temporal Action Spotting in Videos 论文阅读笔记 1 ...
阅读论文：Suggestive Annotation: A Deep Active Learning Framework for Biomedical Image Segmentation
阅读论文:Suggestive Annotation: A Deep Active Learning Framework forBiomedical Image Segmentation 本篇论文发表 ...

A Reinforcement Learning Framework for Medical Image Segmentation翻译

A Reinforcement Learning Framework for Medical Image Segmentation翻译相关推荐

最新文章

热门文章