使用Memory-driven Transformer生成医疗影像报告
©PaperWeekly 原创 · 作者|李东明
学校|香港中文大学(深圳)本科生
研究方向|文本生成
论文标题:
Generating Radiology Reports via Memory-driven Transformer
论文链接:
https://arxiv.org/pdf/2010.16056.pdf
代码链接(含数据集):
https://github.com/cuhksz-nlp/R2Gen/
主要贡献
利用医疗影像报告的特点,在 Transformer 的解码端中加入记忆模块,从而使得模型在建模全局信息的同时更好地刻画影像报告中的局部结构,提升生成的医疗影像报告的质量。
任务与挑战
医疗影像报告生成是一类特殊的图像到文本生成任务,目的是根据医疗影像(本文使用的为胸片影像)生成其诊断报告,可以视为 image captioning 在医疗领域上的应用。但是,区别于传统的 image captioning,影像报告生成的特点/挑战是一般待生成文本都较长。
传统的 image captioning 通常是生成短的句子,对图像进行简单的描述,而影像报告则是由多个句子构成的段落,一般较长,如下图所示。
为了解决影像报告长度长的挑战,现有研究方法使用了层次循环神经网络,包含句子级别循环神经网络和单词级别循环神经网络,句子级别循环神经网络用于生成每个句子的表征向量,单词级别循环神经网络用于使用每个句子的表征生成单词。
通过层级循环神经网络可以更好地建模长文本信息,从一定程度上解决长文本生成的问题。然而,它们没有很好地利用到医疗影像报告生成任务的特点。
尽管这项任务存在着这些挑战,它还是有自身的特征,医疗影像报告往往具有模式化的特点,即不同的影像报告间存在着相似的行文模式,这种模式化信息可以有效地帮助影像报告生成。
因此,作者没有使用层级循环神经网络,而是基于 Transformer 模型,引入关联记忆网络(Relational Memory,RM),从而能够使用 Transformer 建模影像报告长距离信息的同时,建模其中的模式化信息。
为了将 Relational Memory 引入到 Transformer 中,作者还提出了基于记忆的层归一化(Memory-driven Conditional Layer Normalization,MCLN),使模型达到更好的效果。
模型结构
模型上使用的是编码器-解码器框架,由三个模块构成,分别是视觉提取器、编码器和解码器。视觉提取器使用的是预训练的卷积神经网络,编码器和解码器是基于 Transformer 骨架,本文提出的创新点关注于解码器部分,编码器上使用是标准的 Transformer 编码器。
视觉编码器使用的是预训练的卷积神经网络。医疗影像经过视觉编码器后得到一个 width x height x dim 的特征,将二维图像特征 flatten 之后得到一个(width x height) x dim的序列特征作为编码器的输入。之后,编码器的输出将输入给解码器。
关于解码器部分,最自然的想法是直接用标准的 Transformer 解码器,但论文作者尝试后发现简单地使用 Transformer 不能完全解决生成报告长度短和生成内容准确性不足的问题,于是引入了 RelationalMemory 模块,改进了层归一化模块。
Relational Memory 旨在学习影像报告的模式化信息,把 Relational Memory 引入层归一化,使得影像报告生成时,用 Memory 控制 Transformer 输出特征的均值和方差,从而深度利用了影像报告的模式化信息。
Relational Memory
Memory 是一个 slots x dim 的矩阵。在生成的过程中,每次生成一个字时,Memory 需要用上一时刻生成的字进行更新。具体更新规则如下:
给定上一时刻的 Memory
以及上一时刻生成的字的词向量 ,它们将输入给多头注意力(Multi-head Attention,MhA),具体而言, 作为 MhA 的 query, 和 拼接起来作为 MhA 的 key 和 value。MhA 的残差结果 Z 经过一个多层感知机(Multi-layer Perceptron,MLP)得到更新的记忆 。
与 RNN 相似,由于 Memory 每一步都要更新,于是加入了门机制来防止梯度消失或梯度爆炸。门机制由遗忘门和输入门构成。
在 tanh 变换后,其中每个 slot 和 分别经过两个线性变换后相加,最终通过 sigmoid 函数得到遗忘门和输入门各自的值,遗忘门和输入门分别与 和 按位相乘后相加,得到下一时刻的记忆 。
Memory-driven Conditional Layer Normalization (MCLN)
MCLN 的目的是把 Memory 引入解码器中,影响解码过程。理论上不一定要使用 MCLN。论文作者尝试过将 Memory 与标准 Transformer 的解码器的输出进行拼接,性能也有所提升。MCLN 的思想与图像领域上的条件批归一化(Conditional Batch Normalization,CBN)相似,利用条件控制归一化操作中的条件和方差。
具体过程如下:
每一时刻的记忆
将展开成向量 ,之后经过线性变化获得归一化层中的标准差和均值的偏差值 ,这个偏差值将会附加于模型原本的标准差和均值上, ,最后 MCLN 输出的归一化特征为 。
实验结果与分析
本文进行了消融实验以验证关联记忆网络和记忆条件归一化的性能,其结果如图所示。从实验结果可以看出,不管是记忆关联网络还是记忆条件归一化都是提升模型性能的重要因素。将 Memory 通过 MCLN 的方式引入解码器的效果比简单的拼接有明显的提升,这说明了通过 MCLN 将 Memory 引入解码器的方式是有效的。
本文模型与先前工作比较的结果。在两个医疗影像报告生成数据集中,该医疗影像报告生成方法都表现出良好的性能和鲁棒性,优于以前的方法。
更多阅读
#投 稿 通 道#
让你的论文被更多人看到
如何才能让更多的优质内容以更短路径到达读者群体,缩短读者寻找优质内容的成本呢?答案就是:你不认识的人。
总有一些你不认识的人,知道你想知道的东西。PaperWeekly 或许可以成为一座桥梁,促使不同背景、不同方向的学者和学术灵感相互碰撞,迸发出更多的可能性。
PaperWeekly 鼓励高校实验室或个人,在我们的平台上分享各类优质内容,可以是最新论文解读,也可以是学习心得或技术干货。我们的目的只有一个,让知识真正流动起来。
???? 来稿标准:
• 稿件确系个人原创作品,来稿需注明作者个人信息(姓名+学校/工作单位+学历/职位+研究方向)
• 如果文章并非首发,请在投稿时提醒并附上所有已发布链接
• PaperWeekly 默认每篇文章都是首发,均会添加“原创”标志
???? 投稿邮箱:
• 投稿邮箱:hr@paperweekly.site
• 所有文章配图,请单独在附件中发送
• 请留下即时联系方式(微信或手机),以便我们在编辑发布时和作者沟通
????
现在,在「知乎」也能找到我们了
进入知乎首页搜索「PaperWeekly」
点击「关注」订阅我们的专栏吧
关于PaperWeekly
PaperWeekly 是一个推荐、解读、讨论、报道人工智能前沿论文成果的学术平台。如果你研究或从事 AI 领域,欢迎在公众号后台点击「交流群」,小助手将把你带入 PaperWeekly 的交流群里。
使用Memory-driven Transformer生成医疗影像报告相关推荐
- 【MIMIC-IV/pytorch实战】基于word2vec、transformer进行英文影像报告文本分类
完整流程可以分以下几步 数据整理 word2vec 构建transformer模型 训练模型 测试模型 资源下载介绍 若懒得看程序,也可以直接下载全部程序,在最后一部分进行了资源的介绍. [MIMIC ...
- 【深度学习】基于注意力机制的Transformer处理医疗影像
文章目录 1 前言 2 Self-Attention 3 Multi-Head Attention 4 MedT:用于医学图像分割的Transformer 5 基于Transformer的端到端视频实 ...
- nnFormer (Not-aNother transFORMER): 基于交叉Transformer结构的3D医疗影像分割网络
关注公众号,发现CV技术之美 文章链接:https://arxiv.org/abs/2109.03201 开源代码和模型:https://github.com/282857341/nnForme ▊ ...
- 拯救顽疾大作战!IDC绘中国医疗AI生态图谱,英伟达献医疗影像新杀器
来源:智东西 摘要:中国千家医院部署AI系统!IDC医疗AI报告详解行业趋势和五大药方. 2018年是令人唏嘘的一年,台湾作家李敖.动画大师高畑勋.相声表演艺术家师胜杰.央视主持人李咏.微软联合创始人 ...
- 医疗检查报告和影像资料,扫二维码就能查看!
去医院看病不容易,尤其是三甲医院,排队挂号.排队看病.排队付费.排队取检查报告--似乎我们每一次去医院,医院给我们的印象就是非常的多人,而且是人挤人. 在排队取检查报告你有没有这样的经历:随身拎着厚厚 ...
- 体素科技丁晓伟:医疗影像的哲学三问
撰文 | 邱陆陆 医疗,是「死生亦大矣」层面的讨论.这个鲜少「跟风」.转变审慎到近乎迟滞的行业,领域内研究通常要落后工程技术业界五年. 而这一次深度学习的高热从自然影像蔓延到医疗影像,只用了不到两年. ...
- 数字影像系统 接收服务器,RIS/PACS数字医疗影像信息系统的关键技术
一.RIS/PACS建设内容 如今,RIS/PACS已是"数字化医院"建设的重要组成部分,也是影像科室迈向无片化的基础.范围覆盖所有医疗成像设备,包括放射.超声.内镜.心脑电图.牙 ...
- 荟聚NeurIPS顶会模型、智能标注10倍速神器、人像分割SOTA方案、3D医疗影像分割利器,PaddleSeg重磅升级!
导读 图像分割是计算机视觉三大任务之一,基于深度学习的图像分割技术也发挥日益重要的作用,广泛应用于智慧医疗.工业质检.自动驾驶.遥感.智能办公等行业. 然而在实际业务中,图像分割依旧面临诸多挑战,比如 ...
- 数坤科技:AI在医疗影像的应用和探索
机器之心编辑部 3 月 23 日,在机器之心 AI 科技年会上,数坤科技研发副总裁危夷晨发表了主题演讲<AI 在医疗影像的应用和探索>,对 AI + 医疗影像行业进行了全面的介绍. 以下为 ...
最新文章
- leetcode算法题--全排列
- MATLAB-向量相关计算
- Python 5种不为人知的高级特征
- python中取整数的几种方法
- 基于Knative开发应用
- magento php 所需模块,magento博客 - Magento2 创建基本模块
- MicroSoft CryptoAPI data/file encrypt/decrypt
- 百科系列——高一所遇
- Postgresql使用coalesce实现类似oracle的NVL方法
- JSK-396 平均值【入门】
- 深入理解javascript内部原理(2): 变量对象(Variable object)
- (day 48 - 双端队列的使用 ) 剑指 Offer 59 - II. 队列的最大值
- 汇编语言 王爽 第四版 第二章 检测点2.3
- 网页版MSDOS的实现网站
- ISP PIPLINE 概述
- DLP3010EVM-LC and DLP2010EVM-LC常见问题答疑
- Reentrantlock和背后金主AQS —————— 开开开山怪
- 备受欢迎的随心金融P2P
- IMAX [生活时尚]
- css 字体颜色 样式大全