北京大学彭宇新教授团队建立了第一个包含 4 种媒体类型(图像、文本、视频和音频)的细粒度跨媒体检索公开数据集和评测基准 PKU FG-XMedia,并且提出了一种能够同时学习 4 种媒体统一表征的深度网络模型 FGCrossNet。该论文已经被 CCF A 类国际会议 ACM MM 2019 大会接收。

机器之心发布,作者:Xiangteng He、Yuxin Peng、Liu Xie。

  • 本文链接:https://arxiv.org/abs/1907.04476
  • 数据集链接:http://59.108.48.34/tiki/FGCrossNet
  • 源码和模型链接:https://github.com/PKU-ICST-MIPL/FGCrossNet_ACMMM2019
  • 课题组主页:http://www.wict.pku.edu.cn/mipl
  • 课题组 Github 主页:https://github.com/PKU-ICST-MIPL

引言

跨媒体检索(Cross-media Retrieval)是指用户给定任意一种媒体类型数据作为查询样例,系统检索得到与查询样例相关的各种媒体数据。如图 1 所示,当用户给定一张灰背鸥(Slaty-backed Gull)的图像作为查询样例,检索结果包含了图像、文本、视频和音频 4 种媒体数据。现有跨媒体检索研究一般聚焦在粗粒度跨媒体检索(Coarse-grained Cross-media Retrieval),只是将灰背鸥的图像作为鸟的图像进行分析检索,因此检索结果中会包含各种相似鸟类的媒体数据(如灰翅鸥、银鸥、加州海鸥等),而不是灰背鸥的图像、文本、视频和音频数据,如图 1(a) 所示。为了克服上述问题,本文提出了细粒度跨媒体检索(Fine-grained Cross-media Retrieval),即用户给定任意一种媒体类型数据作为查询样例,系统检索得到与查询样例细粒度类别相同的各种媒体数据,如图 1(b) 所示,检索得到灰背鸥的图像、文本、视频和音频数据。

作为一个新兴的研究方向,细粒度跨媒体检索面临三大挑战:

  • 缺乏数据集和评测基准:现有跨媒体数据集一般是针对粗粒度跨媒体检索,而细粒度跨媒体检索还缺乏数据集和评测基准,因此相关研究比较少。
  • 异构鸿沟:这是跨媒体检索面临的经典难题,是指不同媒体类型的数据有着不同的分布和特征表示,导致跨媒体检索十分困难,对细粒度跨媒体检索更是难上加难。
  • 类间差异小,类内差异大:这是细粒度分类面临的挑战。其中,类间差异小是指不同的细粒度类别具有相似的外表(图像、视频)、描述(文本)和声音(音频);类内差异大是指由于视角、光照、描述、背景等不同,相同的细粒度类别又存在外表、描述和声音差异大的现象。上述问题导致难以准确检索特定细粒度类别的媒体数据,相比粗粒度跨媒体检索更具挑战。

针对上述挑战,本文主要做了以下工作:

  • 建立了细粒度跨媒体检索的公开数据集和评测基准 PKU FG-XMedia;
  • 提出了能够同时学习 4 种媒体统一表征的深度网络模型 FGCrossNet。
图 1:粗粒度跨媒体检索与细粒度跨媒体检索的区别
图 2:PKU FG-XMedia 数据集中的样例,如图展示了 7 种细粒度类别的图像、文本、视频和音频数据,其中音频数据用声谱图可视化。

PKU FG-XMedia 细粒度跨媒体数据集

PKU FG-XMedia 数据集包含超过 50,000 个样例,其中 11,788 个图像样例、8,000 个文本样例、18,350 个视频样例和 12,000 个音频样例。具有媒体类型多、类别细粒度和数据来源多的特点:

  • 媒体类型多:包含图像、文本、视频和音频 4 种媒体类型;
  • 类别细粒度:包括鸟的 200 个细粒度类别,如灰背鸥、银鸥、加州海鸥和灰翅鸥等;
  • 数据来源多:数据来源于不同的网站,导致数据质量不同,因此增加了检索的难度。

FGCrossNet 网络模型

本文提出的 FGCrossNet 能够同时学习 4 种媒体的统一表征,其网络框架如图 3 所示。现有跨媒体检索方法一般通过不同的分支网络来建模图像、文本、视频和音频 4 种媒体数据,而 FGCrossNet 则在一个统一的网络中同时建模这 4 种媒体数据,通过优化损失函数一次性学习 4 种媒体的统一表征。

图 3:FGCrossNet 网络框架

本文在损失函数的设计上考虑了 3 种不同的约束:

  • 分类约束(Classification Constraint):确保细粒度类别统一表征的辨识性;
  • 中心约束(Center Constraint):确保相同细粒度类别统一表征的紧凑性;
  • 排序约束(Ranking Constraint):确保不同细粒度类别统一表征的松散性。

分类约束(Classification Constraint)

本文采用交叉熵损失函数来进行分类约束,使得网络模型具有能够区分相似细粒度子类别的能力,其定义如下:

其中

是交叉损失函数,I,T,V,A 分别表示图像、文本、视频和音频。以图像为例,

表示训练集中图像的数目,

表示第 k 个图像样本的类别标签,

表示第 k 个图像样本的特征向量,在本文实验中为 FGCrossNet 网络模型最后一层全连接层的输出。需要注意的是,本文采用视频帧进行网络模型的训练,因此

表示的是训练集中视频帧的数目。

中心约束(Center Constraint)

为了使得相同细粒度子类别的样本(包括图像、文本、视频和音频)在统一空间中具有相近的特征,本文通过中心约束来减少类内特征的距离以缩短模态之间的差异,其定义如下:

其中,

表示训练集中第 k 个样本的特征,在这里不区分媒体类型,因为目的是使得相同细粒度子类别的所有媒体数据的特征相近。

表示

细粒度子类别的质心的特征,N 表示训练集中所有训练样本的数目。

排序约束(Ranking Constraint)

为了使得不同细粒度子类别的样本在统一空间中的距离尽可能大,本文定义了排序约束:

其中,d() 表示 L2 距离,

表示边界阈值用于平衡公式(3)中的两项。需要注意的是,在一次训练过程中,网络模型同时接收 4 种媒体的训练样本,且其中两个样本属于相同细粒度子类别,另外两个样本属于其他两个细粒度子类别。

通过上述三种约束,FGCrossNet 网络模型能够学习到具有辨识性、紧凑性和松散性的统一表征,以实现细粒度的跨媒体检索。

实验

本文在 PKU FG-XMedia 数据集上,通过两种细粒度跨媒体检索任务验证了 FGCrossNet 网络的有效性:

  • 双模态细粒度跨媒体检索(Bi-modality Fine-grained Cross-media Retrieval):查询样例是任意一种媒体数据,检索结果是另外一种媒体数据,表示为 X→Y,其中 X,Y 分别为两种不同的媒体数据。例如,I→T 表示图像检索文本。
  • 多模态细粒度跨媒体检索(Multi-modality Fine-grained Cross-media Retrieval:):查询样例是任意一种媒体数据,检索结果是 4 种媒体数据,表示为 X→All。例如,I→All 表示图像检索图像、文本、视频和音频 4 种媒体数据。

本文在 ResNet50 网络的基础上实现了 FGCrossNet 网络模型,首先在双模态细粒度跨媒体检索任务上验证了 FGCrossNet 的有效性,结果如表 1 所示。实验结果表明 FGCrossNet 取得了当前的最好性能,在检索准确率(MAP)上比当前 state-of-the-art 方法提升了 16.2%。

表 1:本文方法和现有方法在双模态细粒度跨媒体检索任务上的检索准确率(MAP)。

同样,本文也在多模态细粒度跨媒体检索任务上验证了 FGCrossNet 的有效性,结果如表 2 所示。在检索准确率(MAP)上,FGCrossNet 比当前 state-of-the-art 方法提升了 18%。值得注意的是,本文提出的 FGCrossNet 可以一次性学习 4 种媒体的统一表征。而在对比方法中,MHTN 可以同时学习 4 种媒体的统一表征,但是其网络结构相对复杂,需要对每一种媒体都设计不同的分支网络;其他对比方法一次则只能学习两种媒体的统一表征,因此这些方法的训练和检索复杂度都比较高。

表 2:本文方法和现有方法在多模态细粒度跨媒体检索任务上的检索准确率(MAP)。

细粒度图像分类_北大提出PKU FG-XMedia:细粒度跨媒体检索数据集和评测基准相关推荐

  1. 细粒度图像分类_支付宝AI大幅提升细粒度图像分类识别精度:一眼看穿万物细微差异...

    近日,计算机视觉A类顶级会议CVPR 2020开幕在即, 由全球最大机器学习平台Kaggle承办的FGVC(Fine-Grained Visual Categorization,细粒度图像分类)全球挑 ...

  2. 护理方面关于人工智能的构想_如何提出惊人的AI,ML或数据科学项目构想。

    护理方面关于人工智能的构想 No Matter What People Tell You, Words And Ideas Can Change The World. - Robin Williams ...

  3. jdk 细粒度锁_使用JDK 8轻松进行细粒度排序

    jdk 细粒度锁 Java的8的推出流和有用的静态 / 默认的方法比较接口可以很容易地根据个人的领域两个对象比较"值,而不需要实现一个比较(T,T)在其对象的类方法被比较. 我将使用一个简单 ...

  4. 细粒度图像分类论文研读-2012

    文章目录 A Codebook-Free and Annotation-Free Approach for Fine-Grained Image Categorization Abstract Int ...

  5. 细粒度图像分类论文研读-2018

    文章目录 Object-Part Attention Model for Fine-grained Image Classification(by localization- classificati ...

  6. 【图像分类】 基于Pytorch的细粒度图像分类实战

    欢迎大家来到<图像分类>专栏,今天讲述基于pytorch的细粒度图像分类实战! 作者&编辑 | 郭冰洋 1 简介 针对传统的多类别图像分类任务,经典的CNN网络已经取得了非常优异的 ...

  7. 深度学习 图像分类_深度学习时代您应该阅读的10篇文章了解图像分类

    深度学习 图像分类 前言 (Foreword) Computer vision is a subject to convert images and videos into machine-under ...

  8. NeurIPS 2019丨深度双线性转换改进细粒度图像分类

    点击我爱计算机视觉标星,更快获取CVML新技术 编者按:双线性特征在学习细粒度图像表达上效果很好,但计算量极大,无法在深层的神经网络中被多次使用.因此,微软亚洲研究院设计了一种深度双线性转换模块,能够 ...

  9. 细粒度图像分类(FGVC)--- 综述

    原文链接:https://www.its404.com/article/xys430381_1/89640699 目录 一.概述 什么是细粒度图像分类 意义 细粒度图像分类的挑战 细粒度分类常用方法 ...

最新文章

  1. UpTime:供电、系统、网络、制冷——2020年数据中心宕机四大主因
  2. AAAI 2022 | 北航提出基于特征纯化的视线估计算法,让机器更好地“看见”
  3. nginx正确服务react-router应用
  4. html中可以自定义属性,,,妈的竟然才知道..
  5. ios. GCD 倒计时时间
  6. 查linux服务器CPU多少C,在linux 下怎么查看服务器的cpu和内存的硬件信息
  7. 得到照片_用PS制作重曝效果的人像艺术照片
  8. 路由交换技术-实验3: SSH远程登陆
  9. 爱忘事、不自律,有了这5款时间管理工具,堪比“罗志祥”!
  10. 软件设计师刷题(2)
  11. 嵌入式设计与开发项目-DS18B20温度传感器程序设计
  12. 知云文献翻译打不开_沙拉查词—— 划线翻译的一股清流
  13. ARM汇编伪指令之word
  14. 揭秘团队业绩不好的原因
  15. APP (UniAPP) 微信支付回调的 HTTP_RAW_POST_DATA 报错情况 (wxpayv3)
  16. 接口调用-【1】顺丰运单查询
  17. IDEA-Translation3.0插件右键无文档翻译解决
  18. jenson nx 下使用奥比中光orbbec astra mini
  19. 阿里云医疗实体关系抽取大赛
  20. Kurento实战之五:媒体播放

热门文章

  1. Linux IPC实践(12) --System V信号量(2)
  2. JQuery实现旅游导航菜单应用方便
  3. 我就是互联网的老不死
  4. Solr 部分 局部字段修改 更新 删除
  5. JerseyTest
  6. 推荐12个漂亮的 CSS3 按钮实现方案
  7. [转载] 七龙珠第一部——第003话 龟仙人的筋斗云
  8. asp.net C# 计算运算耗时时间
  9. Linux下日志分析的几个常用命令
  10. 信息学奥赛一本通 1176:谁考了第k名 | OpenJudge NOI 1.10 01:谁考了第k名