motivation:

现有的方法,存在以下不足

  • 模态交互不足,尤其是在低层特征上。模态融合模块总是应用于从每个模态独立学习的高级表示,这些模型可能会出现低层细节信息丢失的问题。RIS是像素级的任务,只融合深度单一模态编码器的高层特性,会失去了低层的交互。因此,需要在早期和后期融合不同模态的信息,以促进该任务的跨模态表征。
  • 未对齐的预训练任务。单模态编码器通常在不同于目标任务的单模态任务上进行预训练。预训练任务保证了网络在特定模态下的特征提取能力,但在RIS的跨模态表征学习中不可避免地会带来不同模态的差异性。
  • 不完全利用实例级特征。视觉嵌入总是在每个位置平等对待,没有在实例中突出显示。应该强调实例级特性,因为表达式中的引用通常容易描述实例。

idea:

提出了一种用于图像、语言和掩码联合学习的统一三模态mask - image - language框架MaIL。

  • 首先,MaIL将RIS任务建模为一个深度模态交互问题,使用更简洁和有效的编码器-解码器pipeline。采用统一的transformer结构作为编码器,直接融合各模态输入的特征。该pipline可以直接解决前两个不足,因为编码器中执行了深度模态交互,并且通过丢弃深度单模态编码器,不再需要单模态的预训练。模型采用多模态预训练权重,与单模态任务的预训练相比,为该任务提供更好的对齐表示。
  • 通过显式地将实例级对象mask视为一种模态,直观地,显式地引入预先分割的掩码信息,可以帮助图像和语言通过模态交互更加关注实例级特征,增强图像特征,进行更精细的预测。
  • 在解码器中,自适应地处理所有候选mask特征,以选择最相关和信息量最大的一个,并将其作为一种视觉补偿图像特征,以获得最终的预测。

contribution:

  • 提出了 MaIL,一个新的统一 Mask Image-Language 三模态框架,所提出的深度模态交互结构极大地简化了整个流程,并充分加强了多模态特征的交互。
  • 第一个将mask作为RIS的附加模态, 与自适应掩码选择策略一起,充分利用了mask信息。

【arxiv2022】MaIL: A Unified Mask-Image-Language Trimodal Network for Referring Image Segmentation相关推荐

  1. 【arXiv2022】GroupTransNet: Group Transformer Network for RGB-D Salient Object Detection

    paper:https://arxiv.org/abs/2203.10785 目录 一 动机 二 方法 三 网络框架 3.1 模态纯化模块(MPM) 3.2 尺度统一模块 (SUM) 3.3 多 Tr ...

  2. 【Flutter】Image 组件 ( Image 组件简介 | Image 构造函数 | Image.network 构造函数 | Image.asset 构造函数 )

    文章目录 一.Image 组件简介 二.Image 构造函数 三.Image.network 构造函数 四.Image.file 构造函数 五.Image.asset 构造函数 六.Image.mem ...

  3. 【Detectron2】详解Detectron2中Mask RCNN的部分代码

    整体来说,Backbone.RPN和Fast RCNN是三个相对独立的模块.Backbone对每张图片产生5 level的特征,并送入RPN. RPN对送入的特征,首先经过3x3卷积,随后用sibli ...

  4. 【Qt】Qt中使用ssl时报错:qt.network.ssl: QSslSocket: cannot resolve SSLv2_client_method

    一.问题 在Qt中使用https,运行时报错: qt.network.ssl: QSslSocket: cannot resolve SSLv2_client_method 二.原因分析 SSLv2由 ...

  5. 【译】 Intelligent Agent Based RFID Wireless Body Sensor Mesh Network

    译文全文: 云环境下--基于智能体的RFID无线体域传感器多跳网络 摘要 患者监护在医疗设备中是个非常严格的工作,所以通常由医疗工作者或者由医疗工作者控制下的无线体域传感器网络(WBSN)来操作.本文 ...

  6. 【Docker】WARNING: Published ports are discarded when using host network mode

    1.概述 写了一个docker命令如下 (base) lcc@lcc grafana-storage$ docker run -d -p 9100:9100 -v "/proc:/host/ ...

  7. 【转】关于“Please install at least one language pack”的详

    这个问题很早就在百度知道上回答了,当时因为自己不小心将语言文件删除了导致这个问题,以为都是这样的原因,后来才知道是注册表的缘故,说一说吧. 先确认你的游戏版本! 红警3原版还是资料片:起义时刻??? ...

  8. 【COT】Chain-of-Thought Prompting Elicits Reasoning in Large Language Models

    文章目录 主要解决什么问题 采用什么方法 实验分析与结果 消融实验 Commonsense Reasoning Symbolic Reasoning 问题与展望 Chain-of-Thought Pr ...

  9. 【Mysql】基础篇:DDL (data definition language) 总结

    博主简介:努力学习的大一在校计算机专业学生,热爱学习和创作.目前在学习和分享:数据结构.Go,Java等相关知识. 博主主页: @是瑶瑶子啦 所属专栏: Mysql从入门到精通 近期目标:写好专栏的每 ...

  10. 【PaperReading】Unifying Node Labels, Features, and Distances for Deep Network Completion

    Unifying Node Labels, Features, and Distances for Deep Network Completion 统一节点标签.特征和距离以实现深层网络补全 摘要 1 ...

最新文章

  1. CentOS 7磁盘格式化
  2. 实验5,利用三层交换机实现VLAN间路由
  3. 字节跳动内部学习资料泄露!mysql的安装与配置
  4. Java 多线程三大核心
  5. cnn之将原始图像转换成矩阵
  6. QPainter使用整理
  7. go micro java_Java Micro Framework:您无法忽略的新趋势
  8. c++经典编程题_【经典C语言知识】C/C++编程难点总结
  9. 洛谷 P1219 ---- 八皇后
  10. java 排队实现_实验排队功能实现(JAVA)
  11. PHP 5 将于年底停止更新,六成用户将面临安全风险
  12. js select 联动
  13. ceph客户端使用_Ceph 基础篇 认证
  14. 数学分析教程(科大)——2.7笔记+习题
  15. Matlab UIAxes中添加图例
  16. 服务器路由器无线ap,TP-Link TL-WR841N路由器无线AP设置方法
  17. 下拉筛选时el-select在部分ios系统上软键盘不能弹出软键盘
  18. Android TextView中 代码字体加粗方法
  19. android德地图点聚合,点聚合-点标记-示例中心-JS API 示例 | 高德地图API
  20. freetype 使用小结

热门文章

  1. Power bi 4.20 词云
  2. z77主板升级nvme,迁移系统,蓝屏解决方法
  3. 已知xyz yzz 532Java_已知 xyz+yzz=532 ,其中 x 、 y 、 z 为数字,编程求出 x 、 y 、 z 的值。_学小易找答案...
  4. 游戏攻略 一 天堂W(韩)
  5. 游戏开发入门(三)图形渲染
  6. 吴恩达机器学习课后作业——神经网络
  7. 数据库学生表,课程表,选课表
  8. 菜鸟写Python-Scrapy:Spider源码分析
  9. ECSHOP微信支付插件ECSmart手机版,ECSmart微信支付手机版
  10. tensorflow-gpu深度学习安装的一系列问题——>解决方法汇总