©PaperWeekly 原创 · 作者 | 金金

单位 | 阿里巴巴研究实习生

研究方向 | 推荐系统

简介

图文检索是信息检索的一个基础和关键分支。尽管在连接视觉和语言方面取得了很大进展,但由于模内推理和跨模态对齐困难,它仍然具有挑战性。现有的模态交互方法在公共数据集上取得了令人瞩目的成果。然而,他们在交互模式的设计上严重依赖专家经验和经验反馈,因此缺乏灵活性。

为了解决这些问题,本文提出了一种基于路由机制的新型模态交互建模网络,这是第一个面向图像-文本检索的统一动态多模态交互框架。具体来说,坐着首先设计了四种类型的单元格作为基本单元来探索不同层次的模态交互,然后以密集的策略将它们连接起来以构建路由空间。

论文标题:

Dynamic Modality Interaction Modeling for Image-Text Retrieval

论文来源:

SIGIR 2021

为了赋予模型路径决策能力,坐着在每个单元中集成了一个动态路由器以进行模式探索。由于路由器以输入为条件,本文的模型可以为不同的数据动态学习不同的激活路径。在两个基准数据集(即 Flickr30K 和 MS-COCO)上进行的大量实验验证了本文的模型的优越性。

模型

本文的模型首先分别使用从底至顶的注意力机制抽取图像特征并选择得分靠前的区域,另一方面使用 BERT+CNN 抽取文本特征。在此基础上设计了四种交互方式:

  • Rectified Identity Cell:通过 Relu 保留有区别的线索;

  • Intra-Modal Reasoning Cell:通过注意力机制建模模态内的交互特征;

  • Global-Local Guidance Cell:通过一种模态指导另一种模态的注意力交互;

  • Cross-Modal Refinement Cell:两种模态互相交互的特征。

具体的模型图如下:

在此基础上,本文使用了动态路由的机制选择交互的方式,在训练的阶段,除了原本的损失函数以外,还加入了路径正则的机制,使得相同的语义信息应该选择相同的路径。

实验

本文在图像检索文本和文本检索图像两个任务上都进行了实验,可以看到对比之前仅有模态内交互的模型和静态的模态间交互模型,本文的模型都取得了更好的效果。

另外,作者探究了本文动态路由机制的有效性,具体来说,对比了随机选择路径和 hard 的选择方式,可以看到本文 soft 的选择机制,可以取得更好的效果。

结论

在本文中,本文提出了一个面向图像文本检索的统一模态交互建模框架,这是通过动态路由学习探索交互模式的第一项工作。具体来说,本文首先设计了四种类型的单元来执行不同的内部交互操作和动态路由器进行路由学习。

然后我们为路径决策引入语义路径一致性正则化。在两个基准上的大量实验结果证明了本文提出的方法的有效性和优越性。未来,作者计划在给定计算资源的约束下探索动态机制在信息检索系统中的更多应用,使其更加灵活和可扩展。此外,作者计划将哈希模块合并到我们的模型中以加快检索过程。

特别鸣谢

感谢 TCCI 天桥脑科学研究院对于 PaperWeekly 的支持。TCCI 关注大脑探知、大脑功能和大脑健康。

更多阅读

#投 稿 通 道#

 让你的文字被更多人看到 

如何才能让更多的优质内容以更短路径到达读者群体,缩短读者寻找优质内容的成本呢?答案就是:你不认识的人。

总有一些你不认识的人,知道你想知道的东西。PaperWeekly 或许可以成为一座桥梁,促使不同背景、不同方向的学者和学术灵感相互碰撞,迸发出更多的可能性。

PaperWeekly 鼓励高校实验室或个人,在我们的平台上分享各类优质内容,可以是最新论文解读,也可以是学术热点剖析科研心得竞赛经验讲解等。我们的目的只有一个,让知识真正流动起来。

???? 稿件基本要求:

• 文章确系个人原创作品,未曾在公开渠道发表,如为其他平台已发表或待发表的文章,请明确标注

• 稿件建议以 markdown 格式撰写,文中配图以附件形式发送,要求图片清晰,无版权问题

• PaperWeekly 尊重原作者署名权,并将为每篇被采纳的原创首发稿件,提供业内具有竞争力稿酬,具体依据文章阅读量和文章质量阶梯制结算

???? 投稿通道:

• 投稿邮箱:hr@paperweekly.site

• 来稿请备注即时联系方式(微信),以便我们在稿件选用的第一时间联系作者

• 您也可以直接添加小编微信(pwbot02)快速投稿,备注:姓名-投稿

△长按添加PaperWeekly小编

????

现在,在「知乎」也能找到我们了

进入知乎首页搜索「PaperWeekly」

点击「关注」订阅我们的专栏吧

关于PaperWeekly

PaperWeekly 是一个推荐、解读、讨论、报道人工智能前沿论文成果的学术平台。如果你研究或从事 AI 领域,欢迎在公众号后台点击「交流群」,小助手将把你带入 PaperWeekly 的交流群里。

SIGIR 2021 最佳学生论文:用于图像-文本检索的动态交互式建模相关推荐

  1. 【SIGIR 2021 最佳学生论文】图像文本检索的动态模态交互建模

    [] 关注公众号,发现CV技术之美 本文分享一篇 SIGIR 2021 最佳学生论文『Dynamic Modality Interaction Modeling for Image-Text Retr ...

  2. 资料 | 开源! ICCV 2021 最佳学生论文pixsfm

    点击上方"3D视觉工坊",选择"星标" 干货第一时间送达 作者丨Realcat 来源丨计算机视觉SLAM Hi大家好,我是realcat,今天给大家分享一项近期 ...

  3. 他99年出生,本科身份摘FOCS 2021最佳学生论文奖,曾4刷NOI金牌

    晓查 丰色 发自 凹非寺 量子位 报道 | 公众号 QbitAI 又一位来自中国的学子,摘下计算机理论顶会FOCS 2021最佳学生论文奖.并且这一回,还是位本科生. 上一次FOCS最佳学生论文奖被中 ...

  4. 信息检索顶会SIGIR 2021大奖出炉!山东大学荣获最佳学生论文

    [导读]SIGIR是人工智能领域智能信息检索方向最权威的国际会议.最新组委会公布了一系列最佳论文.其中山东大学获得最佳学生论文,论文一作曲磊钢是山东大学智能媒体研究中心2019级硕士生,导师为山东大学 ...

  5. 姚期智施尧耘获FOCS 2021时间检验奖,MIT华人摘最佳学生论文奖

    转自:量子位 计算机理论顶会FOCS 2021各项论文奖项已公布. 最佳学生论文奖被MIT华人学霸毛啸收入囊中. 而姚期智院士和达摩院量子实验室负责人施尧耘则凭借2001年发表的论文<Infor ...

  6. 亚洲首获奖!清华大学团队获ACM SIGCOMM 2021唯一最佳学生论文奖

    来源:清华大学 编辑:Priscilla 好困 [导读]近日,全球网络通信顶会ACM SIGCOMM 2021公布了获奖名单,清华大学信息学院刘云浩.李振华团队研究影响蜂窝网络可靠性的软硬件及人类行为 ...

  7. 姚期智施尧耘获FOCS 2021时间检验奖,MIT华人学霸毛啸摘最佳学生论文奖

    鱼羊 发自 凹非寺 量子位 报道 | 公众号 QbitAI 计算机理论顶会FOCS 2021各项论文奖项已公布. 最佳学生论文奖被MIT华人学霸毛啸收入囊中. 而姚期智院士和达摩院量子实验室负责人施尧 ...

  8. CVPR 2022缅怀孙剑!同济、阿里获最佳学生论文奖,何恺明入围

    点击上方"视学算法",选择加"星标"或"置顶" 重磅干货,第一时间送达 来源丨新智元 编辑丨极市平台 导读 2年没见,CVPR 2022终于 ...

  9. 同济、阿里获CVPR最佳学生论文,李飞飞获黄煦涛奖,近6000人线下参会

    机器之心报道 机器之心编辑部 刚刚,CVPR 2022 正式公布了最佳论文.最佳学生论文等奖项.来自 ETH Zurich.华盛顿大学.佐治亚理工学院.捷克理工大学多个机构的研究者共同获得了最佳论文奖 ...

最新文章

  1. BM提供支持云的量子计算平台,以加速创新
  2. 黑客内参告诉你一个:设计师用div+css 必须知道的网页布局类型
  3. K155ID1辉光管驱动芯片功能测试
  4. flutter 实现不可滚动的ListView构建器
  5. 数独解题程序的python实现_python实现自动解数独小程序
  6. STM32单片机一个定时器输出不同频率PWM波
  7. 使用 Swiftype 给 Hexo 搭建的博客添加站内搜索功能
  8. Javascript中的对象拷贝(对象复制/克隆)
  9. 解决滑动UITableView自动显示delete按钮
  10. Vue工程引入openlayers组件的方法
  11. 清理浏览器缓存方法(chrome和IE浏览器)
  12. python复数计算符号_Python:基本运算、基本函数(包括复数)、Math模块、NumPy模块...
  13. ffmpeg 按帧数截取视频
  14. 【新特性速递】优化Shift/Ctrl行多选逻辑,和Windows的文件资源管理器保持一致!...
  15. php uploadify上传文件
  16. Lifecycle是什么?
  17. 人工神经网络是符号主义,神经网络的符号表达式
  18. 堵住日常操作易泄密的20个漏洞(转)
  19. 雷蛇 用户计算机不满足要求,工作效率不给力,雷蛇办公组合帮你轻松搞定
  20. PCB设计时如何高效的换pin并生成换pin表格

热门文章

  1. 百度希壤元宇宙平台上线首个汽车数字展厅 领克探索汽车营销新方式
  2. 开放原子超级链动态内核上线,十分钟可搭建一条区块链
  3. matlab朴素贝叶斯手写数字识别_TensorFlow手写数字识别(一)
  4. html怎么让js延迟3秒跳转,JS使用setInterval或setTimeout隔几秒后跳转页面
  5. 记-安装pillow
  6. BZOJ2054: 疯狂的馒头(并查集)
  7. Hadoop安装过程
  8. x-code 4.61 无证书真机调试
  9. 壊小子的学习【日常阅读篇】(四)与阅读有关的那些事儿
  10. 我的团队[六]———功夫在诗外