本文是关于《DEFORM-GAN:AN UNSUPERVISED LEARNING MODEL FOR DEFORMABLE REGISTRATION》论文的阅读笔记。

一、简介

文章提出了一种基于 GAN 的三维医学图像跨模态配准模型 Deform-GAN,并首次将梯度损失(gradient loss)应用到基于深度学习的配准模型中。模型是无监督的,不需要任何 ground-truth 或人工标注信息。

基于无监督的学习模型存在着两个挑战,一个是跨模态或跨序列配准中损失函数的确定,另一个是没有 ground-truth,这使得 GAN 模型比较难训练。

上图是 Deform-GAN 和其他模型的配准结果对比图。

二、记号

  • TTT:图像变换网络
  • GGG:图像生成器
  • DDD:判别器
  • RRR:参考图像
  • FFF:浮动图像
  • ϕ\phiϕ:配准形变场
  • F(ϕ)F(\phi)F(ϕ):变形后的浮动图像
  • ppp:体素位置
  • III:三维图像

三、网络结构和训练


上图是 Deform-GAN 网络的结构示意图。

网络主要由三部分组成:图像变换网络 TTT,图像生成器 GGG 和判别器 DDD,前两者采用的都是类似于 U-Net 的网络结构。图像变换网络 TTT 的输入是参考图像和浮动图像的图像对,输出是配准形变场 ϕ\phiϕ,ϕ\phiϕ 会进一步通过空间变换器对浮动图像 TTT 做变形得到 F(ϕ)F(\phi)F(ϕ),这一步相当于实现了模态间配准(从源域到源域)。图像生成器 GGG 以 F(ϕ)F(\phi)F(ϕ) 为输入,其输出是一个接近于参考图像 RRR 的图像 F′(ϕ)F'(\phi)F′(ϕ),这一步相当于实现了跨模态配准(从源域到目标域)。判别器 DDD 用来判别图像是真实图像还是合成图像。如此一来,配准问题就被分成了两部分:多模配准和单模配准。

在训练前期,TTT 还没有学习到很好的特征,配准效果不好,如果直接将 RRR 和 F′(ϕ)F'(\phi)F′(ϕ) (这里论文中写的是 F(ϕ)F(\phi)F(ϕ),我怀疑是写错了,按照示网络结构示意图中的来)输入到判别器则会产生错误对齐的 F′(ϕ)F'(\phi)F′(ϕ)。为解决该问题,文章提出了“梯度约束的 GAN 方法”,这种方法的特点是损失函数不是固定的,而是通过学习获得的,它不仅惩罚输出图像和目标域图像之间的差别,而惩罚输出图像和源域图像之间的差别。

生成器的任务有三个:一是骗过判别器,二是最小化输出图像和目标域图像的 L1L_1L1​ 距离,三是保持输出图像和源域图像在细节上保持相似。

在训练时,三个网络的训练顺序是先训练判别器 DDD,再训练生成器 GGG,最后训练图像变换网络 TTT,当训练一个网络时,其他网络的参数保持不变。

四、损失函数

局部梯度计算公式:
∇I^(p)=(∑p∈n3x′(p),∑p∈n3y′(p),∑p∈n3z′(p))\nabla \hat{I}(p)=\left(\sum_{p \in n^{3}} x^{\prime}(p), \sum_{p \in n^{3}} y^{\prime}(p), \sum_{p \in n^{3}} z^{\prime}(p)\right) ∇I^(p)=⎝⎛​p∈n3∑​x′(p),p∈n3∑​y′(p),p∈n3∑​z′(p)⎠⎞​
nnn 是 ppp 周围的像素点个数,当 nnn 较小时网络难收敛,当较大时图像 RRR 和 FFF 的边缘很难准确对齐,通过尝试当 n=7n=7n=7 时效果最好。根据以上梯度的计算公式就可以得到正则化的梯度了:
n(I,p)=∇I^(p)∥∇I^(p)∥+εn(I, p)=\frac{\nabla \hat{I}(p)}{\|\nabla \hat{I}(p)\|+\varepsilon} n(I,p)=∥∇I^(p)∥+ε∇I^(p)​
其中 ∣∣⋅∣∣||\cdot||∣∣⋅∣∣ 表示 L2L_2L2​ 距离,图像 RRR 和 FFF 之间的局部梯度损失就可以定义为:
LLG(R,F)=∑p∈Ω∣n(R,p)⋅n(F,p)∣L_{L G}(R, F)=\sum_{p \in \Omega}|n(R, p) \cdot n(F, p)| LLG​(R,F)=p∈Ω∑​∣n(R,p)⋅n(F,p)∣
其中 Ω\OmegaΩ 是 RRR 和 FFF 的图像域,


图像转换网络 TTT 的损失可以表示为:
LT(R,F,ϕ)=Lsim(R,F(ϕ))+αLsmooth(ϕ)L_{T}(R, F, \phi)=L_{s i m}(R, F(\phi))+\alpha L_{s m o o t h}(\phi) LT​(R,F,ϕ)=Lsim​(R,F(ϕ))+αLsmooth​(ϕ)
其中 Lsim(R,F(ϕ))L_{sim}(R,F(\phi))Lsim​(R,F(ϕ)) 又由两部分组成:图像 RRR 和 F′(ϕ)F'(\phi)F′(ϕ) 之间负的局部互信息和图像 RRR 和 F(ϕ)F(\phi)F(ϕ) 之间负的局部梯度距离,如下式所示:
Lsim(R,F(ϕ))=−LLCC(R,F′(ϕ))−βLLG(R,F(ϕ))L_{s i m}(R, F(\phi))=-L_{L C C}\left(R, F^{\prime}(\phi)\right)-\beta L_{L G}(R, F(\phi)) Lsim​(R,F(ϕ))=−LLCC​(R,F′(ϕ))−βLLG​(R,F(ϕ))
形变场的平滑损失 Lsmooth(ϕ)L_{smooth}(\phi)Lsmooth​(ϕ) 可以表示为:
Lsmooth(ϕ)=∑p∈Ω∥∇ϕ(p)∥2L_{\text {smooth}}(\phi)=\sum_{p \in \Omega}\|\nabla \phi(p)\|^{2} Lsmooth​(ϕ)=p∈Ω∑​∥∇ϕ(p)∥2


下面来看下生成器 GGG 和判别器 DDD 的损失函数。在 Pix2Pix 网络,它的损失函数为:
LG∗=arg⁡min⁡Gmax⁡DLcGAN(G,D)+λLL1(G)L_{G^{*}}=\arg \min _{G} \max _{D} L_{c^{G A N}}(G, D)+\lambda L_{L 1}(G) LG∗​=argGmin​Dmax​LcGAN​(G,D)+λLL1​(G)
其中 LcGANL_{cGAN}LcGAN​ 是条件 GAN(conditional GAN)的目标函数,LL1L_{L1}LL1​ 是源图像和 ground-truth 的目标图像之间的 L1L_1L1​ 距离。但是在本论文中由于源图像和目标图像不是像素级的映射数据,所以不适用。本文用局部梯度损失来限制合成图像 F′(ϕ)F'(\phi)F′(ϕ) 和源图像 F(ϕ)F(\phi)F(ϕ) 之间的梯度距离,并保证最终的输出图像的细节和源图像一致。所以最终 GAN 的总损失为:
LG′=arg⁡min⁡Gmax⁡DLcGAN(G,D)−μLLG(F′(ϕ),F(ϕ))+λLL1(F′(ϕ),R)\begin{aligned} L_{G^{\prime}}=& \arg \min _{G} \max _{D} L_{c^{G A N}}(G, D)-\mu L_{L G}\left(F^{\prime}(\phi), F(\phi)\right) \\ &+\lambda L_{L 1}\left(F^{\prime}(\phi), R\right) \end{aligned} LG′​=​argGmin​Dmax​LcGAN​(G,D)−μLLG​(F′(ϕ),F(ϕ))+λLL1​(F′(ϕ),R)​

【论文笔记】基于GAN的三维医学图像跨模态配准模型 Deform-GAN相关推荐

  1. 你说我画,你画我说:全球最大中文跨模态生成模型文心ERNIE-ViLG来了!

    来源:机器之心 本文约2300字,建议阅读9分钟该模型参数规模达到100亿,是全球最大的中文跨模态生成模型. 在文字生成图像上,文心 ERNIE-ViLG 可以根据用户输入的文本,自动创作图像,生成的 ...

  2. 百度AI技术盛宴来了!大咖齐聚解读CV/NLP/跨模态大模型技术!

    随着人工智能步入工业大生产阶段,AI大模型正在加速走出实验室,在全球范围内逐步实现产业落地应用的突破.自2020年至今,越来越多的科技巨头和科研机构参与其中.去年12月,百度发布了全球首个知识增强千亿 ...

  3. 有了AI智能绘画,我也可以成为绘画大师——全球最大规模中文跨模态生成模型ERNIE-ViLG

    对于绘画一窍不通的我,也喜欢看动漫,看到一些绝美的画,何尝不会感叹,要是我也会画画就好了,现在终于有机会帮我实现这个想法了,无意间看到了AI的一个新应用,最近热度还挺高的AI绘画,充分引起了我的兴趣, ...

  4. 论文笔记--基于 FCM 聚类的跨模态人物图像标注方法-2015

    期刊论文-基于 FCM 聚类的跨模态人物图像标注方法-2015-微型电脑应用-赵昀,张翌翀 文末附人脸标注相关论文下载地址 文章目录 摘要 技术 人脸检测与特征表示(与2012年吴伟硕士论文<跨 ...

  5. [复现笔记]基于双目视觉和三维重构的三维书写系统

    1. 前言 前段时间正好看到一位大神的博客 http://blog.csdn.net/onezeros/article/details/6110838 利用双目视觉来构建一个书写系统, 涉及到相机的标 ...

  6. AI学习笔记(六)三维计算机视觉与点云模型

    AI学习笔记之三维计算机视觉与点云模型 立体视觉 立体视觉的概念 立体视觉的原理 单目系统 双目系统和视差 对极几何约束 SIFT sift特征的特点 sift算法总体介绍 sift特征提取和匹配具体 ...

  7. AAAI 2018论文解读 | 基于文档级问答任务的新注意力模型

    在碎片化阅读充斥眼球的时代,越来越少的人会去关注每篇论文背后的探索和思考. 在这个栏目里,你会快速 get 每篇精选论文的亮点和痛点,时刻紧跟 AI 前沿成果. 点击本文底部的「阅读原文」即刻加入社区 ...

  8. 基于RK3588+TensorFlow的人工智能跨模态行人重识别方法及应用

    摘要: 跨模态行人重识别技术(cm-ReID)旨在可见光.红外等不同模态图像中识别出同一个人,其在人 机协同.万物互联.跨界融合.万物智能的智能系统与装备中有重要应用.提出一种数据增强的跨模态行人 重 ...

  9. 【GAN优化】GAN优化专栏上线,首谈生成模型与GAN基础

    大家好,今天小米粥在有三AI开设新专栏<GAN的优化>.在这个专栏中,我们会讲述GAN的相关背景.基本原理.优化等相关理论,尤其是侧重于GAN目标函数的优化.小米粥和有三将带领大家从零学起 ...

最新文章

  1. 非常好用的Python图像增强工具,适用多个框架
  2. POJ 2296 Map Labeler(2-sat)
  3. boost::fusion::tuple用法的测试程序
  4. 删除360浏览器新标签页内的热词导航
  5. DA模拟量控制外接600V高压直流源-设计分析
  6. mysql 添加唯一索引_浅谈Mysql索引
  7. sqllite查询数据量_详解SQLite中的查询规划器
  8. cube一站式云原生机器学习平台-加速分布式任务的运行效率
  9. 详解spring 每个jar的作用(转)
  10. 饿了么分布式KV架构与实践
  11. java项目上线流程
  12. STM32模拟I2C协议获取MLX90614红外温度传感器测温数据(Open Drain管脚配置)
  13. 前后端跨语言RSA加解密和签名验证实现(js+python)
  14. 当代中国最贵的汉字是什么?
  15. 08-02-19pe_xscan 增加Windows启动模式和对SuperHidden值检测和报告
  16. 公排系统php,全球公排自动滑落二二复制多级分销系统 PHP源码
  17. Resharp最新破解方法
  18. 在VMware8.0下安装crux2.6
  19. 隐马尔可夫模型 #博学谷IT学习技术支持#
  20. 前端重点---DNS和CDN

热门文章

  1. 微信相册服务器偷懒,微信不做纯属偷懒?这款夜间模式神器刷新你三观
  2. select简单2级联动
  3. matlab有限元计算程序,MATLAB 有限元计算程序2
  4. 工业实时数据库的SQL异步查询
  5. 5G丨通讯运营商沃达丰将于7月3日在英国7个城市推出5G服务
  6. 大数据|Hadoop系统
  7. FX5U项目程序,用的三菱FX5U的PLC,里面有CC- LINK通讯机器人.自由口通讯仪表.以太网套接字通讯上位机
  8. 过程计算机控制综合课程设计,计算机控制技术综合课程设计.doc
  9. Ubuntu 反复登陆解决
  10. TensorFlow----Keras库