RES 新的数据集 Advancing Referring Expression Segmentation Beyond Single Image 论文笔记

  • 一、Abstract
  • 二、引言
  • 三、相关工作
    • 3.1 Referring Expression Segmentation (RES)
    • 3.2 CoSalient Object Detection (CoSOD)
  • 四、提出的方法
    • 4.1 概述
      • 文本 & 图像编码器
      • TQM & Heatmap Hierarchizer
      • Mask 预测器
    • 4.2 Triphasic Query Module (TQM)
    • 4.3 Heatmap Hierarchizer
    • 4.4 训练目标
      • 负样本训练
      • 三重阈值损失
      • 镜像训练策略
      • 目标函数
  • 五、提出的数据集
    • 5.1 数据集亮点
    • 5.2 构建步骤
    • 5.3 数据统计
  • 六、实验
    • 6.1 数据和指标
    • 6.2 实施细节
    • 6.3 与 SOTA 方法的比较
      • 在 GRES 设置上的结果
      • 在 RES 设置上的结果
      • 在 Co-SOD 设置上的结果
    • 6.4 消融实验
      • Triphasic Query Module (TQM)
      • Heatmap Hierarchizer (HMapHier)
      • Mirror Training (MirrorT)
      • Triplet Margin Loss (TriLoss)
  • 七、结论

写在前面

  最近一直在看 Arxiv,好像已经没有多少关于实例分割框架了。目前以跨模态,多模态的 Zero-shot 居多,这也是个发展趋势,大家都在整大模型了。这次的论文笔记是挑选一篇这两天放出来的 Arxiv 文章,关于参考表达式分割。