Article

  • 作者:Xiaoyu Tan , Chin-Boon Chng, Ye Su, Kah-Bin Lim, and Chee-Kong Chui
  • 文献题目:Robot-Assisted Training in Laparoscopy Using Deep Reinforcement Learning
  • 文献时间:2019

    使用深度强化学习的腹腔镜机器人辅助训练

    • Article
    • 摘要
    • 引言
    • 相关工作
      • 腹腔镜住院医师培训
      • 运动规划和深度强化学习
    • 方法
      • 系统架构
      • 腹腔镜培训机器人设备
      • 模拟设置和模拟到真实
      • PPO智能体训练
      • 轨迹采集和校正
      • GAIL 代理培训、驻留学习和实践
    • 实验
      • 实验设计与任务建立
      • PPO 代理培训和测试
      • GAIL 代理培训和测试
      • 从示范和实践中学习
    • 结论
    • 参考文献

摘要

  • 微创手术 (MIS) 越来越成为减少手术创伤和显着改善术后恢复的重要方法。然而,熟练操作 MIS 中使用的手术器械,尤其是腹腔镜手术,需要长时间的培训,并且高度依赖于外科医生的经验。这封信提出了一种新的机器人辅助手术训练系统,该系统旨在通过人类专家和强化学习 (RL) 代理的实践中反馈和演示来提高外科医生的实践技能。该系统利用近端策略优化来学习模拟中的控制策略。随后,基于专家演示和模拟中学习到的策略来训练生成对抗性模仿学习代理。然后,该代理在机器人辅助设备上为学员生成演示策略,并在练习期间生成反馈分数。为了进一步获取手术工具坐标并鼓励自主练习,训练了一个基于掩膜区域的卷积神经网络来执行手术工具和目标的语义分割。据我们所知,该系统是第一个机器人辅助的腹腔镜训练系统,它利用实际手术工具并利用深度强化学习从人类专家的角度和 RL 标准提供示范训练。

引言

  • 微创手术 (MIS) 被广泛认为是减少术中创伤和显着改善术后恢复的最重要的手术方法之一 [1]。这种方法已在多个外科学科中实施,也被认为是保持器官功能和避免失血的最可靠方法 [2]。通常,MIS 是通过使用腹腔镜器械实现的,该器械涉及在患者皮肤上创建几个小入口,以在皮肤下建立手术工具操作的手术空间。通过腹腔镜系统的视觉反馈被用来在手术过程中协助外科医生。然而,由于缺乏触觉、3维直接观察的丧失以及手术野和外科医生手之间的视点分离,外科医生需要获得一套完全不同的技能来处理腹腔镜[1]。因此,腹腔镜住院医师培训既具有挑战性又耗时。尽管已经开发了几种手术机器人系统(例如,达芬奇和宙斯手术系统 [3]、[4])来克服 MIS 中的可视化和非触觉反馈问题、高成本、操作复杂性和低采用率阻碍了完全取代传统腹腔镜方法的尝试,因此导致培训计划更加耗时 [5]、[6]。
  • 这封信介绍了一种新的机器人辅助腹腔镜训练系统,通过人类专家和强化学习 (RL) 标准的练习和演示来提高手术工具的操作技能。人类专家为演示提供潜在的操作模式,而 RL 代理为演示提供受客观约束的行为。这两个视角同等重要,相辅相成,让学员在长时间复杂的操作中不断达到高精度。首先,使用近端策略优化 (PPO) [7] 在模拟中训练深度 RL 代理。该代理用于根据来自动态的预定义奖励信号生成演示轨迹,在训练中提供替代视角,而不仅仅是重播从人类专家那里捕获的轨迹。随后,基于 PPO 生成和专家轨迹训练生成对抗性模仿学习 (GAIL) [8] 代理。这种深度逆 RL 代理经过训练以涉及 PPO 轨迹,模仿专家演示中的潜在模式,并克服演示的多模态行为引起的分布不匹配问题[9]。这些模式很难被预定义为奖励信号,因此很难在 RL 标准下获得最佳解决方案。最后,训练有素的 GAIL 代理用于操纵机器人辅助设备,以在练习期间向受训者提供演示和反馈。
  • 为了验证错误,提供独特的可视化,并提高实践程序的多样性,基于掩码区域的卷积神经网络(Mask R-CNN)被用于分割和跟踪腹腔镜工具。 为了提供操作实际手术工具的直接体验,设计了带有临床腹腔镜工具的机器人设备来记录和重放工具轨迹。 基于机器人设备上模拟和实践的实验结果,我们的系统可以成功地充分学习专家和模拟的操作,重放演示,并提供评估反馈。

相关工作

腹腔镜住院医师培训

  • 通常,带有腹腔镜培训的住院医师计划包括离体和体内全天实验室课程 [10]。据报道,许多先前的工作使用隐马尔可夫模型 (HMM) [11] 和描述性曲线编码 (DCC) [12] 通过手术手势直接进行评估和训练。尽管这些程序可以分解 MIS 的轨迹结构,但它们是基于上下文的方法,不足以在演示中发现潜在特征 [13]。这些功能可能包含专家在操作手术工具方面的独特个人技术,例如在长时间的手术中选择特定姿势或根据与目标的距离改变工具的速度。尤其是这些特征,无法通过常规性能指标(例如完成任务的准确性和时间)来完全衡量 [14]。虽然,最近,Deep Option (DDO) [15] 及其扩展:Discovery of Deep Continuous Option (DDCO) [16] 通过在 HMM 中利用深度学习和策略梯度,在从演示的驻留训练中取得了优异的成绩,这些算法不适用于我们的训练系统。这是因为在我们提出的系统中必须考虑从动态角度和确定反馈的轨迹。

运动规划和深度强化学习

  • 已经开发了各种运动规划和轨迹优化算法来执行操作任务,例如线性二次调节器 (LQR) [17]、快速探索随机树 (RRT) [18] 及其变体:RRT* [19] 可以保证最优解的收敛。 然而,这些基于模型的方法旨在在转换模型中找到最短的无碰撞路径,并且无法在受不同属性的专用奖励函数约束的无模型任务中找到最佳解决方案。 尽管在 RL 标准下开发的一些轨迹优化算法是无模型的,包括引导策略搜索 [20],但这些方法通常是引导的或与其他基于模型的方法相结合,因此不适合所提出的腹腔镜训练系统。
  • 深度无模型强化学习算法的研究在复杂交互环境中有效学习控制策略方面取得了成功。 David 等人提出了不同的深度强化学习系统,以基于人类知识并通过自我竞争来掌握围棋游戏,无需任何专家演示 [21]。策略优化算法也得到了改进,通过限制每次更新的步长[7]、[20]、[22]来提高训练策略代理的稳定性和速度。最近,据报道,深度逆强化学习算法完全基于演示特征进行模仿学习 [8]。一些深度强化学习算法通过从模拟中学习对真实机器人的操纵[23]-[25],在机器人运动任务中取得了成功。因此,在腹腔镜手术的机器人辅助住院医师训练中实施深度强化学习算法可以潜在地整合从奖励信号表示的动态目标和无法通过奖励预定义的潜在特征的学习。此外,训练有素的深度逆 RL 代理可以为验证轨迹和对受训者的反馈提供基线。

方法

  • 本章介绍了我们的机器人辅助腹腔镜训练系统中使用的主要方法,包括模拟环境、机器人设备设置、PPO 代理培训、轨迹校正、专家数据收集和通过 GAIL 代理学习。 第 III-A 节对我们的系统进行了高层次的概述。

系统架构

  • 机器人辅助腹腔镜训练系统旨在通过人类专家和RL标准的实践和演示来提高操作技能。这两种观点相辅相成,因为== RL 代理将专注于在短期目标受限任务中实现高精度,而专家轨迹可能包含长期的整体技术。==为了简单地说明我们在真实机器人上直接使用模拟策略的想法的验证,我们将讨论重点放在没有拾取和放置运动的右手运动任务上。由于两种机器人工具的运动学设计和开发都是对称的,我们对右手机器人工具所做的工作适用于左手工具。学员将通过此练习获得操作腹腔镜工具的第一次触觉和手眼协调经验。在培训的初始阶段,通过演示快速建立基本但有效的理解至关重要。之后,鼓励学员在不涉及演示的情况下探索复杂的操作任务,以提高熟练程度并形成自己的技术。图 1 所示流程图从仿真、机器人设备和居民三个角度说明了系统构建和实施的主要流程。

腹腔镜培训机器人设备

  • 为了记录和重放演示,设计并构建了一个机器人设备,允许将真正的临床腹腔镜工具安装在物理工作空间中使用,在== 60° 球锥工作空间内记录和模拟腹腔镜手术期间的所有运动==。该设备有 4 个主要自由度 (DOF),带有一个可选的自由度,用于驱动手术工具手柄。每个自由度都通过有刷直流电机驱动,带有用于关节位置反馈的编码器。机器人设备的控制系统由 NI 9118 Xilinx Virtex-5 LX110 可重构 I/O FPGA 组成,每个电机都带有 NI 9505 全 H 桥有刷直流伺服驱动模块。这种硬件配置支持高速控制回路执行和实时应用的高确定性。控制系统的基于 FPGA 的实现提供了机器人轴的高度并行、快速和稳健的协调,允许在机器人设备的多个子系统之间进行同步。因此,在操作手术工具时,工具尖端轨迹可以被记录下来,随后用于评估和演示。通过回放记录的轨迹或生成的策略,受训者可以简单地握住手柄并从演示中学习操作模式。

模拟设置和模拟到真实

  • 腹腔镜工具使用和进一步学习的模拟是在虚拟机器人实验平台(V-REP)上完成的。 右侧装配模型在仿真中由 Python 远程 API 在实时同步模式下建模和控制。 在此模式下,仿真在每个时间步(50 ms)等待远程命令,并在接收到信号后执行一个时间步。 与扭矩控制器、肌腱单元 (MTU) 控制器和比例导数 (PD) 控制器相比,深度 RL 代理生成的速度控制器已被证明始终与 PD 控制器取得兼容的分数并优于其他方法 [24] , [26]。 因此,速度控制器由于其简单性和实际实现的相似性而被应用于四个目标关节。
  • 由于现实差距和任务的不同复杂性,已经在模拟环境中直接在真实运动任务上训练有素的代理。为了克服现实差距,系统识别首先通过在模拟中实现从实际机器人检索的准确物理参数来执行。模拟执行器模型中使用的参数经过微调,以实现与来自采样轨迹的机器人设备相同的性能。为了测试控制器性能,部署了深度传感器,并使用 Mask R-CNN 通过分割来确定工具尖端的坐标。可以通过重放采样轨迹来计算误差,随后可以对模拟进行微调以最小化该误差。样本轨迹之一如图 3(b)所示。误差为 ±2.3 毫米。接下来,在 PPO 训练过程中引入扰动(高斯噪声)以提高控制器的鲁棒性。最后,操纵机器人设备的实际物理轨迹用于训练 GAIL 代理,进一步增强控制器的鲁棒性。实验设计将在第 IV-A 节中介绍。

PPO智能体训练

  • 在构建模拟环境后,训练 PPO 代理从设计的奖励信号生成面向目标的轨迹,并在演示中利用它们。 对于模拟训练,PPO 代理遵循由马尔可夫决策过程 (MDP) 构成的标准 RL 设置并与模拟环境 EEE 交互。在时间步长 ttt,代理观察状态 sts_tst​ 并通过策略 πθ(at∣st){\pi}_{\theta}(a_t|s_t)πθ​(at​∣st​) 采取行动,该策略从状态映射到模型参数 θ\thetaθ 对动作的概率分布。 在采取行动 ata_tat​ 后,代理将在转换动态 p(st+1∣st,at)p(s_{t+1}|s_t,a_t)p(st+1​∣st​,at​) 之后到达下一个状态 st+1s_{t+1}st+1​ 并从奖励函数 r(st,at)r(s_t, a_t)r(st​,at​) 获得奖励 rrr。 状态的返回值在具有模型参数 θ\thetaθ 的学习状态值函数 Vθ(s)V_{\theta} (s)Vθ​(s) 中定义。 PPO 代理以演员-评论家风格进行训练,具有单独的价值模型和策略模型。 整体结构如图2所示。

      图2:具有演员评论家风格的 PPO 代理架构。 Value net 和 policy net 均由两层感知器构建,第一层有 256 个单元,带有 Rectifier Linear Unit (ReLU) 激活函数。 值网络将从一次观察中输出一个状态值。 策略网络将在动作维度上生成多元高斯分布。
    
  • 训练 PPO 代理以在每次迭代中最大化损失函数:

  • 其中 E(πθ∣st)E({\pi}_{\theta}|s_t)E(πθ​∣st​) 是熵奖励,以确保代理可以充分探索模拟环境,c1c_1c1​、c2c_2c2​ 都是调整不同损失权重的系数。 LVFtL_V^{Ft}LVFt​ 是一个平方误差损失,用折扣因子 γ\gammaγ 和目标值函数更新价值网:

  • LtCLIPL_t^{CLIP}LtCLIP​ 是一种裁剪损失,用于简化和替换信任区域策略优化 (TRPO) 中使用的代理损失:

  • 其中 rt(θ)r_t(\theta)rt​(θ) = πθ(at∣st)/πθold(at∣st){\pi}_{\theta}(a_t|s_t)/{\pi}_{{\theta}_{old}}(a_t|s_t)πθ​(at​∣st​)/πθold​​(at​∣st​) 是当前政策和旧政策之间的概率比。 表示用于限制更新量和稳定学习过程的裁剪率。 这种修改是精度和计算效率之间的权衡。 通过引入电感偏置实现了高稳定性。 Guided Policy Search [20]还利用了与 TRPO 类似的 KL 散度损失,这可能会通过裁剪损失进行简化。

  • At^\hat{A_t}At​^​ 是 TTT 时间步长轨迹的优势估计量:

  • 其中δt=rt+V(St+1)−V(st){\delta}_t = r_t + V (S_{t+1}) − V (s_t)δt​=rt​+V(St+1​)−V(st​)。 PPO 代理可以在不同的奖励函数预定义的不同标准下实现各种最优策略。 与生成确定性连续策略的无模型off-policy RL 算法(例如深度确定性策略梯度(DDPG)[27])相比,PPO 可以在有限的数据量下实现高收敛的稳定学习。 为了证明学习的差异,DDPG 在与 PPO 代理相同的设置下在第 IV-B 节中进行了测试。 RRT 还在第 IV-B 节中进行了测试,以将 RL 算法与使用预定义奖励函数的传统运动规划方法进行比较。

  • 在我们的实验中,奖励函数定义如下: rt=λ−c3Δt+c4e−Δtr_t = \lambda − c_3Δt + c_4 e^{−Δt}rt​=λ−c3​Δt+c4​e−Δt 其中 ΔtΔtΔt 表示在时间步长 ttt 时尖端tip和目标之间的距离,λ\lambdaλ 是一个常数,c3c_3c3​ 和 c4c_4c4​ 是用于分别对两个奖励项进行加权的系数。 ==与常用的稀疏奖励信号相比,我们的奖励信号是一个具有指数奖励的连续函数,以鼓励快速到达和稳定学习。 ==该奖励函数在模拟期间实现无模型 RL 方法方面也具有优势,因为距离 ΔtΔtΔt 可以在没有运动学模型的情况下轻松获得。 PPO 代理是在 Tensorflow 平台上使用 Python 编程的。

轨迹采集和校正

  • 专家轨迹由各种关节位置组成,并使用 FPGA 资源本地存储。 信息在每个会话结束时或根据存储需要传输到远程工作站。 要回放的专家轨迹可以按需推送到 FPGA。
  • 由于奖励函数设计的限制,PPO 代理生成的轨迹不能满足演示要求。 在我们的实验中(第 IV-A 节),设计的奖励函数不能准确地表示一些专家模式,例如人类手腕的约束行为。 但是,住院医师掌握手腕的放松姿势对于保证手术的准确性和减少疲劳是很重要的。 ==因此,实施轨迹校正方法来代替 PPO 生成的轨迹的手柄运动。在这种方法中,机器人设备将在没有手柄运动的情况下重放 PPO 生成的轨迹。 同时,专家只会约束手柄运动来纠正轨迹。 ==手柄运动的数据收集类似于轨迹收集,后者适用于人类专家的所有工具运动。

GAIL 代理培训、驻留学习和实践

  • 在专家数据收集和轨迹校正之后,GAIL 代理被训练以直接根据演示中的特征和模式提取策略。与传统的逆 RL 算法 [9]、[29] 从数据特征中恢复奖励函数而不计算最优策略相比,GAIL 代理更容易同时训练和输出奖励信号和策略。此外,GAIL 克服了由演示的多模态行为引起的分布不匹配问题。这种多模态行为更有可能发生在医学专家的学习轨迹中,因为它们在执行相同任务时可能会有所不同。通过构建从观察到行动的直接映射,正常行为克隆方法可能会在这种情况下引入明显的偏差。 GAIL 代理遵循与第 III-D 部分所示的 PPO 代理相同的 RL 设置。==这些代理是在生成对抗网络 (GAN) 框架中构建的,其中包含判别器 DwD_wDw​ 和策略生成器 Gw′{G_w}'Gw​′。 DwD_wDw​ 被训练来执行分类并将 Gw′{G_w}'Gw​′ 生成的策略与演示分开。 Gw′{G_w}'Gw​′ 经过训练以根据 DwD_wDw​ 的分类结果生成策略。代理架构如图 4 所示。

      GAIL 代理的架构。 鉴别器网络由全连接的三层感知器构成,第一层有 256 个单元,具有泄漏 ReLU 激活函数,第二层有 128 个单元,具有泄漏 ReLU 激活函数,输出分类概率具有 sigmoid 激活函数。 Generator 使用与图 2 所示的 PPO actor 相同的架构。
    
  • Gw′{G_w}'Gw​′ 由 PPO 训练,它利用了第 III-D 节中提到的相同更新规则。 通过最小化损失函数来训练鉴别器 DwD_wDw​:

  • 其中 τi{\tau}_iτi​ 表示 GwG_wGw​ 生成的轨迹,τE{\tau}_EτE​ 表示从第 III-E 部分获取的演示轨迹。 训练结束后,Gw′{G_w}'Gw​′ 生成的轨迹可以作为示范样本供外科住院医师学习。 通过直接验证轨迹数据,DwD_wDw​ 可以对外科住院医师练习期间捕获的轨迹提供独特的反馈。

  • Mask R-CNN 被训练来跟踪手术工具并计算练习课程的总分。 第 IV-A 部分所示的设计实验包含多个目标,需要不同的模型进行个性化演示和评估。 因此,在练习过程中,由于来自受训者的嘈杂输入,典型的系统可能无法准确地识别受训者打算纯粹从记录的数据中实现的目标。 虽然严格限制不同目标练习的顺序可以解决这个问题,但这与我们系统旨在提供足够的练习变化自由和提高自我导向练习技能的目标背道而驰。 因此,可以对系统进行编程以考虑记录的数据和区域掩码之间的距离,以确定要使用的模型。

实验

实验设计与任务建立

  • 为了全面测试我们的 RL 代理性能并确保在驻留训练中使用足够的目标,设计的实验包含 12 个单独的右手运动训练任务。其中8个均匀分布在腹腔镜工具尖端下方10厘米处,半径为10厘米的圆圈内。训练集中的这些目标得到 (Alearn={T0,T1,...,T7})(A_{learn} = \{ T_0 , T_1 ,...,T_7 \} )(Alearn​={T0​,T1​,...,T7​}) 用于演示和学习。其他位于半径15cm外圆内同心同高的靶标主要用于练习和评价。这些目标在训练集 Aplay={T8,T9,T10,T11}A_{play} = \{ T_8 , T_9 , T_{10} , T_{11} \}Aplay​={T8​,T9​,T10​,T11​} 中表示。基于这种设计(图 5(a)),我们在模拟(图 5(b))和机器人设备(图 5(c))中设置了相同的测试环境。在这些任务中,用户需要在每项任务中从一个中心点操作手术工具到指定目标。机器人设备被编程为通过 GAIL 代理记录专家和学生操作和操作手术工具的轨迹以进行演示。

PPO 代理培训和测试

  • 在设置模拟环境后,PPO 代理被训练完成每个任务 10 次,每次 1500 集,预定义的奖励信号在第 III-D 节中提到。 对于每一集,代理以每个时间步的 dt=50msd_t = 50 msdt​=50ms 进行实时模拟,并终止在tmax=2st_{max} = 2 stmax​=2s。 同样,DDPG 代理也在网络架构和超参数的相同设置下进行了测试。 这些代理每 100 集进行一次测试,以仅使用输出的平均值生成策略。 实验结果如图 6 所示。

      在不同场景下训练 PPO 代理的实验结果。绿线表示带有标准偏差的测试结果。 蓝线代表每集的训练结果,带有标准偏差。 红线表示专家达到的平均基线。 平均 RRT 结果绘制为紫色线。 DDPG 的测试结果绘制为黄线。 用于训练 PPO 代理的参数:
    
  • ε=0.2\varepsilon = 0.2ε=0.2, c1=0.5c_1 = 0.5c1​=0.5, C2=10−3C_2 =10^{−3}C2​=10−3 , γ=0.99\gamma = 0.99γ=0.99, λ=10\lambda = 10λ=10, c3=0.5c_3 = 0.5c3​=0.5, c4=103c_4 = 10^3c4​=103

  • 在 PPO 代理的培训期间,从两个医学合作者那里收集了专家轨迹。 每位专家对每项任务演示五次。 通过重放专家轨迹,他发现专家可以为 AlearnA_{learn}Alearn​ 和 AplayA_{play}Aplay​ 获得的平均预定义奖励分别为 5197 和 3116。 因此,这些结果被认为是验证代理性能的基线。 RRT 还在任务 AlearnA_{learn}Alearn​ 和 AplayA_{play}Aplay​ 上执行,以将学习结果与基于 RL 的方法进行比较。 在步距 ds=2mmd_s = 2 mmds​=2mm 和最大顶点数 nmaxv=2000n_{maxv} = 2000nmaxv​=2000 下,RRT 在每个任务上实施了 10 次。 RRT 可以为 AlearnA_{learn}Alearn​ 和 AplayA_{play}Aplay​ 实现的平均预定义奖励分别为 8505 和 4735。 这些结果都绘制在图 6 中。

  • 根据实验结果,在对每个目标的特定奖励函数的评估下,PPO 代理优于专家和 RRT 方法。 因此,PPO 代理生成的轨迹可以代表用于演示的受目标约束的行为。 由于数据量有限且更新迭代次数相对较少,DDPG 代理无法实现稳定的学习。

GAIL 代理培训和测试

  • 在 PPO 代理训练之后,训练有素的代理用于为每个目标生成五组轨迹。 随后,如第 III-E 节所述,生成的轨迹将由我们的合作临床医生进行校正,并与专家的原始轨迹相结合作为训练数据。 该过程是根据轨迹特征揭示奖励函数并合并目标函数。 部分利用演示将导致恢复不完整的奖励函数,并且与从动力学和专家那里学习演示的目的相矛盾。

  • GAIL 代理的生成器使用与 PPO 代理培训相同的模拟设置。鉴别器的架构如图 4 所示。由于演示的真实目标函数未知,因此无法直接在该指标下评估 GAIL 生成器的性能。然而,PPO 奖励函数和训练有素的 GAIL 代理的鉴别器可以执行类似的评估。由于真正的目标函数是通过混合证明合并的,PPO 奖励函数可以部分指示性能(有效的 GAIL 代理应该获得高分)。 GAIL 代理中训练有素的判别器的结果可以被认为是一种特殊的奖励函数,因为它可以成功地对类似于演示的轨迹进行分类(高分意味着高相似性)。鉴别器本身也很难评估,因为在对抗训练期间输入数据分布一直在变化。因此,生成器轨迹的推断结果也记录在图 7 中,以验证生成器和鉴别器的性能。

      在不同场景下训练 GAIL 代理的评估结果由预定义的奖励信号和鉴别器验证。 绿线和深蓝线分别代表由预定义奖励信号评估的具有标准偏差的测试和训练结果。 红线表示平均基线。 判别器评估的测试结果和训练结果分别用浅蓝色线和紫色线表示。 由预定义奖励函数评估的行为克隆测试结果绘制为黄线。
    
  • 我们首先通过预定义的奖励函数和图 7 中所示的判别器评估整个训练过程。接下来,来自人类专家、有校正的 PPO 代理、没有校正的 PPO 代理和 GAIL 代理的轨迹由所示训练有素的判别器进行评估在图 8 中。行为克隆代理使用相同的策略模型架构和超参数与 GAIL 代理也被训练通过最小化均方误差来执行从观察和动作的直接映射。 类似地,结果由预定义的奖励信号评估。

      具有标准偏差的不同类型轨迹的判别器评估结果。通过对每个场景的 5 个分数取平均值来获取数据。
    
  • 基于图 8 所示的模拟结果,与专家轨迹相比,GAIL 代理实现了兼容的性能,并且能够在不进行校正的情况下成功地分离轨迹。它表明判别器在对具有许多相同属性值的两个相似轨迹进行分类时的鲁棒性。它还表明 GAIL 代理成功地模仿了演示,并且可以从专家行为中学习在动力学方面不易表示的特征。 PPO 校正和人类专家的分数略高于 GAIL 生成器的分数,因为上述轨迹类似于判别器训练中使用的正样本。这种差异也显示了判别器在对抗训练中的能力和可靠性。图 7 所示的行为克隆结果表明,它获得了与演示相似的结果,但不能显着提高性能,并且在某些情况下也可能因为演示的多模态行为而失去精度。 (例如,图 7 中的目标 9)

从示范和实践中学习

  • 由于培训师的特定课程安排,培训程序可能会有所不同。 我们的系统旨在通过预训练 Mask R-CNN 来最好地配合不同的计划来分割手术工具和目标。 Mask R-CNN 生成的样本如图 3(a) 所示。 它可以用来增强学习中的可视化,而无需顽固的练习。 根据掩膜区域和运动数据,系统还可以通过编程计算最终总分,而不限制不同任务的顺序。
  • 虽然我们的系统可以提供所有任务的反馈,但我们建议学员在任务 AlearnA_{learn}Alearn​ 中学习演示并在任务 AplayA_{play}Aplay​ 中练习,以将所学技能概括为看不见的目标。 反馈的分数可以通过以下等式计算:
  • 其中 c5c_5c5​ 和 c6c_6c6​ 是权重,τp{\tau}_pτp​ 是测试轨迹,TimeTimeTime 是完成一项任务的总时间。 训练者可以调整系数,实现训练中的差异化聚焦。
  • 进行了初步实验以将我们提出的系统与传统的训练方法(即盒式训练)进行比较。 我们从新加坡国立大学医学系招募了 50 名没有操作腹腔镜工具经验的学生参加培训实验。 受试者被均等地随机分成两组,每组 25 名学生。 对照组仅根据自己的实践进行传统箱式训练的训练 15 分钟,而研究组则通过演示 10 分钟和练习 5 分钟来学习我们提出的系统的操作。 训练前后对两组的表现进行验证。 由于评分方法(6)无法评估传统方法的训练结果,因此使用以下等式来评估受训者的表现:
  • 其中c7c_7c7​为完成任务的标准标志,TimeTimeTime为完成任务的总时间,NfN_fNf​为系数c8c_8c8​放大后未能完成一项任务的次数。 在我们的统计分析中,我们根据我们的经验设置 c7=300c_7 = 300c7​=300 和 c8=100c_8 = 100c8​=100。 对于每个学生,将在训练前后的测试中计算 Scorepre{Score}_{pre}Scorepre​ 和 Scoreaft{Score}_{aft}Scoreaft​。 因此,每个学生的技能提高可以通过 Scoreimp=Scoreaft−Scorepre{Score}_{imp} = {Score}_{aft} - {Score}_{pre}Scoreimp​=Scoreaft​−Scorepre​ 来衡量。 我们通过基于两个群体的平均值提出零假设来执行 t检验(α\alphaα 水平
    a=0.05a = 0.05a=0.05): H0:μs−μc=0H_0 : {\mu}_s − {\mu}_c = 0H0​:μs​−μc​=0 ,其中 μs{\mu}_sμs​ 表示使用所提出系统的人口技能改进的平均值,μc{\mu}_cμc​ 表示使用传统方法的人群技能改进的平均值。 t 检验结果见表 I。
  • 基于 t 检验结果,我们可以拒绝零假设 H0H_0H0​,并认为所提出的系统在统计上优于腹腔镜训练中的传统方法。 但是,建议在未来的工作中对具有复杂任务的不同训练程序进行更多的统计分析。 每个功能都可以通过专门设计的任务和评估指标单独和顺序验证,以全面研究我们的系统在训练和机器人辅助手术训练方面的有效性。

结论

  • 在这封信中,我们介绍了一种机器人辅助腹腔镜训练系统,该系统利用深度强化学习算法(即 PPO 和 GAIL)从模拟和专家行为中学习。 通过结合实际的腹腔镜工具并由 RL 代理操作,受训者可以通过真实的触觉体验从演示和实践中学习。 这些演示结合了来自专家轨迹的潜在模式和由 RL 代理生成的客观约束轨迹。 在我们的系统中使用 Mask R-CNN 增强了训练反馈、可视化和错误验证的自动化。 基于机器人设备上的模拟和实践结果,我们的系统可以成功地从模拟和专家数据中学习,生成最佳演示策略,并评估受训者的轨迹。 统计分析表明,利用我们的培训系统提高的技能在统计上是显着的。
  • 对于未来的工作,我们希望在我们的系统中包含更多的培训任务(例如,pick-and-place),邀请受训者全面调查我们的系统并对我们系统的每个功能进行全面的统计评估。 我们还喜欢研究其他深度强化学习算法在我们的机器人系统上的应用,例如具有通用价值函数逼近能力的 Hindsight Experience Replay [25]。

参考文献

  • [7] J. Schulman, F. Wolski, P. Dhariwal, A. Radford, and O. Klimov, “Proximal policy optimization algorithms,” 2017, arXiv:1707.06347.
  • [8] J. Ho and S. Ermon, “Generative adversarial imitation learning,” in Proc. Adv. Neural Inf. Process. Syst. Conf., 2016, pp. 4565–4573.
  • [9] P. Abbeel and A. Y. Ng, “Inverse reinforcement learning,” in Proc. Encyclopedia Mach. Learn, Springer, 2011, pp. 554–558.
  • [20] S. Levine and V. Koltun, “Guided policy search,” in Proc. Int. Conf. Mach.
    Learn., 2013, pp. 1–9.
  • [25] M. Andrychowicz et al.“Hindsight experience replay,” in Proc. Adv. Neural Inf. Process. Syst. Conf., 2017, pp. 5048–5058.

【医疗人工智能论文】使用深度强化学习的腹腔镜机器人辅助训练相关推荐

  1. 深度强化学习控制六足机器人移动个人学习笔记(一)

    深度强化学习控制六足机器人移动个人学习笔记(一) 注意事项 ubuntu18对应的ros版本不是Kinect gym算法执行中部分包要求Python不低于3.6 conda虚拟环境安装gym-gaze ...

  2. 【论文解读】解读TRPO论文,深度强化学习结合传统优化方法

    导读:本论文由Berkeley 的几位大神于2015年发表于 JMLR(Journal of Machine Learning Research).深度强化学习算法例如DQN或者PG(Policy G ...

  3. 【密歇根大学博士论文】深度强化学习进展:内在奖励,时间信用分配,状态表示和价值等效模型...

    来源:专知 本文为论文介绍,建议阅读5分钟 本文旨在进一步推进深度学习技术. 强化学习(Reinforcement learning, RL)是一种机器学习范式,研究智能体如何学习预测和控制自己的经验 ...

  4. 【200+论文】深度强化学习、对话系统、文本生成、文本摘要、阅读理解等文献列表

    [导读]本文收录了深度强化学习.对话系统.文本生成.文本摘要.阅读理解.因果推理.记忆网络.推荐系统.神经表示学习等一系列领域参考文献大合集! https://cloud.tencent.com/de ...

  5. 深度强化学习之gym扫地机器人环境的搭建(持续更新算法,附源码,python实现)

    想要源码可以点赞关注收藏后评论区留下QQ邮箱 本次利用gym搭建一个扫地机器人环境,描述如下: 在一个5×5的扫地机器人环境中,有一个垃圾和一个充电桩,到达[5,4]即图标19处机器人捡到垃圾,并结束 ...

  6. 深度强化学习落地方法论(7)——训练篇

    目录 训练开始前 环境可视化 数据预处理 训练进行中 拥抱不确定性 DRL通用超参数 折扣因子 作用原理 选取方法 Frame Skipping 网络结构 网络类型 网络深度 DRL特色超参数 DQN ...

  7. 【ML4CO论文精读】基于深度强化学习的组合优化问题研究进展(李凯文, 2020)

    基于深度强化学习的组合优化研究进展 本人研究方向(博士期间):多目标组合优化与决策研究--致力于多约束多目标多任务组合优化算法和多目标决策系统的研究与开发,以及多目标优化技术在一些工程实践中的应用. ...

  8. 赠票 | 深度强化学习的理论、算法与应用专题探索班

    文末有数据派赠票福利呦! 深度强化学习是人工智能领域的一个新的研究热点.它以一种通用的形式将深度学习的感知能力与强化学习的决策能力相结合,并能够通过端对端的学习方式实现从原始输入到输出的直接控制.自提 ...

  9. 中科院自动化所介绍深度强化学习进展:从AlphaGo到AlphaGo Zero

    来源:德先生 概要:2016年初,AlphaGo战胜李世石成为人工智能的里程碑事件.其核心技术深度强化学习受到人们的广泛关注和研究,取得了丰硕的理论和应用成果. 深度强化学习进展:  从AlphaGo ...

最新文章

  1. golang 多行字符串 字符串太长分行写
  2. nginx模块_使用gdb调试nginx源码
  3. 洛谷P2401 不等数列(线性DP)
  4. 第五章 染料结构对染色性能的影响单元测验
  5. html5专著,参考文献专著
  6. notepad多行编辑_Windows 10 UWP 推荐 | 极具现代感的轻量化文本编辑器:Notepads
  7. bootsrap 外边距_Bootstrap 网格系统布局详解
  8. SpringCloud学习笔记024---SpringBoot集成Lucene实现全文检索_分词_索引_更新_删除文档_词条搜索_多条件查询
  9. datatable行内内容太长,有时不自动换行解决方法
  10. access ea 可以联网吗_EA自家Origin平台高级会员Origin Access Premier现已上线
  11. lq106kf打印机设置_爱普生lq106kf
  12. TCP粘包问题分析和解决
  13. lodop打印html上下居中,lodop打印横向纵向
  14. 教育行业课程介绍话术
  15. android手机运行win10,Win10可以直接运行你手机里的安卓APP了:三星率先支持
  16. 技术分享 | ClickHouse StarRocks 使用经验分享
  17. transition transform translate 之间的区别
  18. 在 Mac 山猫 10.8 中从代码编译安装 vim
  19. 《智慧书》格言(序)
  20. 【java】SSM框架浅薄理解

热门文章

  1. 这届618:掀起直播盛世
  2. 一条校招/社招潜规则~
  3. 365天挑战LeetCode1000题——Day 116 第315场周赛 「中国银联 力扣」
  4. 解决RuntimeError: Tensor for ‘out’ is on CPU, Tensor for argument #1 ‘self’ is on CPU, but expected th
  5. word修订模式怎么彻底关闭_如何去掉word修订模式
  6. win怎么在计算机里按日期搜索文件,Windows下怎么按时间查找文件
  7. 论文阅读_基于知识图谱的约束性问答
  8. STM32SPI通信原理
  9. 人类跌落梦境显示无法连接服务器,人类跌落梦境手游网络连接失败进不去解决办法一览...
  10. 中科院计算机所副研究员,中科院计算技术研究所副研究员 谭光明