Holistic and Comprehensive Annotation of Clinically Signiﬁcant Findings on Diverse CT Images: Learning from Radiology Reports and Label Ontology论文简析

0 Links
1 Authors and Team
2 Introduction
- 2.1 Purpose
- 2.2 Motivation
- 2.3 Challenge: Image and Labels
3 Network
- 3.1 Ontology branch
- 3.2 Text branch
- 2.3 Image branch
- - 2.3.1 Relation hard example mining（RHEM）
  - 2.3.2 Score Propagation Layer（SPL）
4 Loss Function
- 4.1 Weighted CE Loss
- 4.2 Multilabel Triplet Loss
5 Experiments
- 5.1 Dataset
- 5.2 Evaluation Metric
- 5.3 Lesion Annotation Results
- 5.4 Accuracies of some typical labels
- 5.5 Sample prediction
- 5.6 Training and testing LesaNet on different subsets of labels
6 Conclusions and future work

0 Links

paper：Holistic and Comprehensive Annotation of Clinically Signiﬁcant Findings on Diverse CT Images: Learning from Radiology Reports and Label Ontology
code：LesaNet

1 Authors and Team

这是一篇被CVPR2019收录的论文。主要作者Ke Yan，之前有一篇论文是关于迄今世界最大的CT医学影像数据集DeepLesion的，因此这篇论文的数据集也使用了Deeplesion。来自NIH，全称美国国立卫生研究院，是美国最高水平的医学与行为学研究机构。Yifan Peng，也来自NIH，主要研究方向是医学方面的自然语言处理。对这篇论文的贡献在于对于病变标签的筛选。

2 Introduction

2.1 Purpose

协助诊断决策
找到相似病变
生成结构化报告
收集病变数据集
学习如何自动“阅片”

2.2 Motivation

放射科医生的日常工作之一就是阅片然后找出重要病变并在放射性医学报告中描述它们。这篇文章旨在设计一个深度学习算法，它能够根据给定的病变图像，预测出一套全面的相关标签，同时，这些标签也包含从报告中提取的重要信息，如病变部位、类型和属性。

2.3 Challenge: Image and Labels

训练这样一个算法需要一个大规模且多样的病变图像标注数据集，论文选用了DeepLesion数据集，但是DeepLesion数据集并没有为每个病变提供详细的语义标签，手动标注又显得繁琐、昂贵、可扩展性不强，所以，论文提出了一种自动数据挖掘方法，这种方法能够在报告中找到涉及病变的带有指向标注的超链接的句子（带有BOOKMARK的句子，如下图），然后从句子中提取标签。

3 Network

总体的框架如下：

一共包括三个分支，Ontology这个分支定义了标签和它们间的关系；Text这个分支利用Text-mining模块从报告中挖掘和过滤标签；Image这个分支提出了一个病变标注网络——LesaNet，结合Text分支的标签信息，以及Ontology分支的标签关系，最终能得到每个病变的置信度。

3.1 Ontology branch

如下图，是Ontology的其中一个子图：

其中，红色代表病变的类型（Type）标签、蓝色代表病变的身体部位（Body Part）标签、绿色代表病变属性（Attribute）标签。单箭头表示标签的层次关系（即包含关系），双箭头表示标签的互斥关系。

3.2 Text branch

构建了病变本体（ontology）之后，作者从Deeplesion数据集的相关放射学报告中提取了标签。方法是首先使用NLTK（Natural Language Toolkit）标记带有BOOKMARK的句子并对其进行词性化以获得其基本形式，然后，将预处理句子中的标签与病变本体（ontology）中提到的匹配，并根据它们的同义词将他们标准化为标签。之后这些被提取的标签会经过一个NLP模型以过滤掉不相关的标签，最后利用标签扩展策略再扩展得到标签。
所提到的NLP模型如下：

这个模型最后会输出与标签和BOOKMARK之间的关系类型（不相关、不确定和相关）相对应的概率向量。注：如果一个标签描述了感兴趣的书签，就称之为“相关的”；如果它描述了其他书签，则称之为“不相关的”；如果它是在一个假设语句中，则称之为“不确定的”。

2.3 Image branch

这个分支主要是提出了一个Lesion Annotation Network（LesaNet），在每个病变周围裁剪一个120mm²的patch作为输入，输出分数矢量s∈ R^C，其中C是标签数。
其网络结构如下：

2.3.1 Relation hard example mining（RHEM）

接下来讲讲RHEM，困难标签关系挖掘，用于挖掘报告中没有提到的子标签。RHEM使用的是标签间的互斥关系找到可靠的负标签。

比如，如果Left Lung是正标签，那么Liver、Kidney cyst等等是负标签，因为它们是互斥的。这里还受到online hard example mining (OHEM) 的启发，计算了具有标记c的病变i的困难度（difficulty）：

对于困难标签采用多采样的方式以便挖掘困难标签的关系。

2.3.2 Score Propagation Layer（SPL）

最后介绍SPL，分数传播层，简单的全连接层，使用线性变换矩阵W定义了预测分数，它用一个单位矩阵初始化，用来学习标签间的一阶相关性。
如下图是其中一个学习变换矩阵W：

SPL有助于增强正相关标签的得分、并抑制负相关标签与清楚分离的标签的得分。

4 Loss Function

总损失共有4个部分组成，分别是网络输出预测分数的平均交叉熵损失，调整之后的平均交叉熵损失，RHEM的交叉熵损失以及三态损失。

4.1 Weighted CE Loss

由于大多标签正例较少，因此对每个标签采用加权交叉熵损失（Weighted Cross-Entropy Loss）：

4.2 Multilabel Triplet Loss

三态损失能使得具有相似标签对的病变在embedding空间中离得更近。即类内差距减小，类间差距增大。

5 Experiments

5.1 Dataset

从DeepLesion中及其相关报告中，共收集了 19,213个带有句子的病变作为训练集，1,852个作为验证集，1,759个作为测试集。每个患者仅被分到其中一个子集里。因为并非所有病变在报告中都有书签，所以提取的总数小于DeepLesion中的数量。
因为在报告中带有书签的句子可能并没有包含病变得所有信息，所以仅靠句子时，测试集中可能缺少标注。因此，两名放射科医生进一步手动标注了测试集中的500个随机的病变。将原始测试集称为"文本挖掘测试集"，因为标签是从报告中提取的，第二个手工标注的测试集也用于评估LesaNet。

5.2 Evaluation Metric

评价标准：AUC，即ROC曲线下方的面积，是CAD任务中常用的指标。但是，AUC是基于等级的度量标准，并不涉及标签决策，因此无法评估多标签情况下最终预测标签集的质量。因此，作者还计算了每个标签的精度（prediction），召回率（recall），和F1分数(F1 score)，这些分数经常在多标签图像分类任务中使用，每个指标在权重相等的标签上取平均（每个类别平均），没有采用总体平均，因为它偏向于信息较少的频繁标签（如胸部、腹部等）。为了将置信度分数化为标签决策，作者为验证集上产生最佳F1分数的每个标签进行了阈值的校准，然后将其应用于测试集。

5.3 Lesion Annotation Results

实验结果如下：

加权近似成对排名损失（Weighed Approximate Ranking Pairwise Loss，WARP）是一种广泛使用的多标签损失，旨在使正标签的排名大于负标签的排名。作者将该损失应用于多尺度多标签CNN，并定义如果细粒度标签全部为正的话，则排名应高于粗略的标签。在DeepLesion上病灶嵌入（Lesion Embedding）基于身体的粗略部位、病灶大小和位置进行了训练。这四种方法中，LesaNet在两个测试集中获得了最佳的AUC和F1分数。
从消融实验中发现，去除SPL会使每个类的平均召回率降低3%，频繁出现的标签（ntr>1000）的召回率下降0.4%，这表明SPL对稀有标签的召回率很重要，但代价是很小的精度损失。
与SPL相反，RHEM对于提高精度至关重要，这可能是因为它以略微降低的召回率为代价抑制了可靠的较难阴性标签的得分。
没有标签扩展策略，训练集将丢失40％（父）标签，从而导致准确性不高。
不使用文本挖掘模块时，由于不相关的训练标签会带来噪音，因此总体准确性会下降。但是，性能并未显着降低，这表明模型能够在一定程度上宽限有噪声的标签。
另外，三重态损失也对**分类精度有轻微的贡献。**从三重态损失中获悉的256维向量可用于从数据库中检索出类似的病灶（给定一个查询）。在下图中，**LesaNet不仅可以正确预测查询病变的标签，而且可以使用相同的标签检索病变，尽管它们的外观并不相同。**检索到的病变和报告可以为预测的标签提供证据，并帮助用户理解查询病变。

5.4 Accuracies of some typical labels

如下图，是文本挖掘测试集上某些典型标签的准确性：

身体部位、类型和属性的平均AUC分别是0.9656、0.9044和0.8384。身体部位通常更规则，因此更容易预测；而有些标签（如椎旁，结节）的视觉特征是可变的，因此较难学习。属性具有较低地AUC，一方面是因为某些属性是主观、微妙的。此外，放射科医生通常不会在报告中描述病变的每个属性，因此测试集中缺少标注。

5.5 Sample prediction

上图是预测的示例，由图可知，LesaNet可以准确预测出许多病变的标签。如在图(a)和(b)中，确定了两个细粒度的身体部位（右肺门和气管前淋巴结）；在图©和(d)中，是毛玻璃样征和肺空洞；在图(g)和(h)中，是血管瘤和肝转移；LesaNet还可以正确预测一些属性。如图(e)中的钙化，图(h)中的小叶，图(i)中的微小。在某些相似的身体部位和类型上可能会发生错误。如，在图©中，尽管“左下肺叶”的分数很高，但由于两个身体部位很近，因此也可以预测为“左上肺叶”；在图(g)中，"转移"被预测错了，因为在某些情况下可能难以与血管瘤区分开来。一些罕见的and/or的可变标签没有被很好地学习，如图(b)中的“聚合”和“坏死”。

5.6 Training and testing LesaNet on different subsets of labels

其中，子集1由训练集中出现次数超过1000次的标签组成(ntr > 1000)，子集2由ntr>500的标签组成。在对子集2进行训练后，可以对子集1和2测试，以查看子集1的准确性是否下降了。

6 Conclusions and future work

通过从放射性报告中获取标签实现全面的病变标注
利用标签本体来推断缺失的标签
- 标签扩展策略
- 困难标签关系挖掘（RHEM）
未来的工作
- 收集更多的稀有标签和困难标签数据
- 试图吸收更多的先验知识

【重制ver】LesaNet论文简析(CVPR2019)——医学影像相关推荐

[2020-ECCV]PIPAL-a Large-Scale Image Quality Assessment Dataset for Perceptual Image Restoration论文简析
[2020-ECCV] PIPAL: a Large-Scale Image Quality Assessment Dataset for Perceptual Image Restoration 论 ...
[2021-ICCV] MUSIQ Multi-scale Image Quality Transformer 论文简析
[2021-ICCV] MUSIQ: Multi-scale Image Quality Transformer 论文简析论文:https://arxiv.org/abs/2108.05997 代码 ...
[2021-CVPR] Jigsaw Clustering for Unsupervised Visual Representation Learning 论文简析及关键代码简析
[2021-CVPR] Jigsaw Clustering for Unsupervised Visual Representation Learning 论文简析及关键代码简析论文:https:/ ...
[2020-CVPR] Dynamic Region-Aware Convolution 论文简析
[2020-CVPR] Dynamic Region-Aware Convolution 论文简析论文地址:https://arxiv.org/abs/2003.12243 参考代码地址(非官方): ...
[2020-AAAI] Revisiting Image Aesthetic Assessment via Self-Supervised Feature Learning 论文简析
[2020-AAAI] Revisiting Image Aesthetic Assessment via Self-Supervised Feature Learning 论文简析论文链接:htt ...
[2021-CVPR] Fine-grained Angular Contrastive Learning with Coarse Labels 论文简析
[2021-CVPR] Fine-grained Angular Contrastive Learning with Coarse Labels 论文简析论文地址:https://arxiv.org ...
SIGMOD 2021 论文简析:当公交网络连接满足通勤需求时的公共交通规划 Public Transport Planning
SIGMOD-2021 论文简析:当公交网络连接满足通勤需求时的公共交通规划 - Public Transport Planning: When Transit Network Connectivit ...
ICDE-2020 论文简析:空间众包中的预测任务分配 : 一种数据驱动的方法 Predictive Task Assignment in Spatial Crowdsourcing
ICDE-2020 论文简析:空间众包中的预测任务分配:一种数据驱动的方法 Predictive Task Assignment in Spatial Crowdsourcing: A Data-dr ...
ICDE-2020 论文简析:依赖感知空间众包中的任务分配 - Task Allocation in Dependency-aware Spatial Crowdsourcing
ICDE-2020 论文简析:依赖感知空间众包中的任务分配 - Task Allocation in Dependency-aware Spatial Crowdsourcing 研究背景研究目标 ...

【重制ver】LesaNet论文简析(CVPR2019)——医学影像

Contents