作者 | 王磊

本文介绍了汽车之家团队在ICCV 2019一篇关于视频理解论文相关的工作。针对视频多标签分类的问题,论文提出了将视频多标签之间相关性特征加入到网络之中,结果证明该方法可以显著的提高视频多标签分类效果。

一、背景介绍

随着视频应用的不断普及,视频内容理解与分析成为计算机视觉领域的一个热门研究方向。2017年,Google开源了其大规模视频内容数据集Youtube8M,鼓励研究者通过该数据集利用深度学习技术进行视频理解的研究。

最新的Youtube-8M数据集包括两部分,第一部分为video-level(视频层级)的标注,该部分总计包含610万个已标注的视频,3862个分类,平均每个视频标注了3个标签;第二部分为segment-level(视频片段标注),该部分挑选了1000个分类,对视频中随机抽取的5秒片段进行标注,该部分总共有23.7万个标注数据;值得注意的是,segment-level的数据标注仅标注了抽取的5秒视频片段是否属于某一特定标签,并没有标识该视频片段的所有标签。

二、标签相关性

近年来,视频理解成为计算机视觉领域的一个热点方向。相比较图像内容,视频内容更为复杂多样,因此对于视频内容而言,单个标签很难完整的表征视频的内容,对于视频内容理解分析大多为多标签的分类问题。

在视频标签中,很多标签之间会有一定的相关性并成对出现;如图一所示(标签从Youtube8M数据集中选取),当宝马(BMW)、发动机(Engine)的标签出现时,汽车(Car)的标签大概率也会出现;但是当汽车的标签出现时,宝马标签出现的可能性则非常低。

图1.标签有向图示例

通过对Youtube8M数据集的部分标签数据进行分析,可以得到一个图来表征各个标签之间的关系,如图二所示。图二中每个不同颜色的节点代表一个独立的标签类别,不同节点之间的连线代表着两个节点之间是否有相关性,节点之间连线上的数值则代表了不同的标签之间联系的紧密程度,数值越大,则联系越高;没有联系的节点之间则不会有线连接。

通过对视频的多标签之间的相关性进行建模分析,并通过图神经网络将标签类别映射为对应类别分类器加入到最终的视频多标签分类网络之中,可以提升整体模型的学习分类能力。

图2.标签相关性Wighted-Graph表示

三、图卷积神经网络

如何有效获取目标标签之间的相关性?如何利用这些标签相关性提升网络的特征学习以及分类表现?这是视频多标签分类的两个重要问题。由于图的特点可以很好的表征各个标签之间的相互依赖性,因此我们选择基于图神经网络进行建模学习,并用于最终视频分类网络中。一个图神经网络的基本结构如图三所示:

图3.图神经网络基本结构

Input输入有两个,一个为特征描述矩阵H(n*d),另一个为相关系数矩阵A(n*n),其中n为节点个数,即所有标签的个数,d为特征的维度,特征维度根据采用的CNN结构决定。

相关系数矩阵是GCN网络中表征标签关系的一个矩阵,因此如何构建相关系数矩阵 A 就成了GCN 模型中一个非常重要的问题。由于Youtube8M数据集有超过600万的video-level的视频标注数据,因此我们可以通过挖掘标签在数据集中的共现情况来初始化相关系数矩阵A。 为标签i在数据中出现的次数,  为标签i和标签j两个标签一起出现的概率,两者相除便可以得到不同标签之间的条件概率矩阵P。

考虑到标注数据中可能存在不准确的情况以及标签在训练和测试集中共现的次数可能会相差比较大,因此我们设置了一个阈值剔除相关性比较弱的噪声的影响。对于上面得到的矩阵P,只有其值大于某特定值(论文中为0.5)的时候才会考虑,否则矩阵中这两个标签的相关度会设置为0,因此优化后的条件概率矩阵如下所示:

Hidden Layer用来学习节点之间的相关信息并更新节点表示,每一个Hidden Layer都可以用一个非线性函数表示:

Hidden Layer可以有多层,堆叠多个 GCN 层来对节点之间交织的复杂关系进行建模。在本论文中Hidden Layer为两层,通过训练学习便可以得到优化后的表征标签相关性的矩阵Output,并用于帮助视频标签分类。

四、整体网络

最终的完整网络结构如图四所示,我们使用InceptionV3来提取输入视频的特征;NeXtVLAD网络是第二届Youtube8M比赛单模型冠军网络,该网络可以很好的视频的多维度特征进行聚合,并且在降低特征维度的同时还能很好的保证模型性能;在网络的下半部分,我们用一个双层的GCN网络来帮助进行最后的视频标签分类。最终的对比实验中,加入GCN后的视频多标签分类网络MAP(Mean-Average-Precision)提高了接近一个百分点,GCN网络的加入显著性显著的提高了视频多标签的分类能力;也证明了对于多标签分类任务,通过研究多标签之间的相关依赖关系提升网络分类能力是一个很好的方向。

图四.整体网络结构

五、结论

视频理解与分析是计算机视觉领域的一个热门问题,针对视频的特征提取以及特征聚合全世界的研究已经做了大量的工作。本文提出了从多标签相关性的视角来提升视频的多标签分类能力并进行了有效的实验验证。通过对视频的图像特征、时序特征、标签相关性特征进行融合的分类网络可以很好的增强神经网络的视频理解能力。

ICCV 2019 论文解读:用图神经网络改善视频的多标签分类相关推荐

  1. ICCV 2019 论文解读 | 基于层次解析的Image Captioning

    ©PaperWeekly 原创 · 作者|蔡文杰 学校|华南理工大学 研究方向|计算机视觉 目前大多数的 image captioning 模型采用的都是 encoder-decoder 的框架.本文 ...

  2. ICLR 2019论文解读:量化神经网络

    https://www.toutiao.com/a6701879235964830212/ 今年五月举办 ICLR 2019 会议共接收论文 502 篇,本文将解读其中两篇有关量化神经网络的研究. U ...

  3. 亮点抢先看 | 旷视科技11篇 ICCV 2019 论文概览

    点击我爱计算机视觉标星,更快获取CVML新技术 本文转载自旷视研究院(megviir). ICCV 2019 论文如期发榜,旷视科技共有11篇论文被录取,涵盖通用物体检测及数据集.文字检测与识别.半监 ...

  4. 76篇 ICCV 2019 论文实现代码

    ICCV 2019 将于2019/10/27-2019/11/2在韩国首尔的 COEX 会议中心举行,本次ICCV 收到了创纪录的4303份提交(比ICCV 2017年增加了100%),并接受了107 ...

  5. Netflix:用神经网络改善视频质量

     点击上方"LiveVideoStack"关注我们 ▲扫描图中二维码或点击阅读原文▲了解音视频技术大会更多信息 编者按 Editor's note 眼看用户视频的增长将超过服务器的 ...

  6. AAAI 2019 论文解读:卷积神经网络继续进步

    机器之心 卷积神经网络(CNN)近年来已经取得了很大的成功,但研究者仍在进一步推进研究前沿,提出新的思路和方法.在本文中,技术分析师 Joshua Chou 将解读三篇有关卷积神经网络的 AAAI 2 ...

  7. AAAI 2019 论文解读 | 基于区域分解集成的目标检测

    作者丨文永亮 学校丨哈尔滨工业大学(深圳) 研究方向丨目标检测.GAN 本文解读的是一篇发表于 AAAI 2019 的 paper,文章提出了一种 R-DAD 的方法来对 RCNN 系列的目标检测方法 ...

  8. PTAV:实时高精度目标追踪框架 | ICCV 2017论文解读

    在碎片化阅读充斥眼球的时代,越来越少的人会去关注每篇论文背后的探索和思考. 在这个栏目里,你会快速 get 每篇精选论文的亮点和痛点,时刻紧跟 AI 前沿成果. 点击本文底部的「阅读原文」即刻加入社区 ...

  9. 2020AI顶会的腾讯论文解读 | 多模态学习、视频内容理解、对抗攻击与对抗防御等「AI核心算法」

    关注:决策智能与机器学习,深耕AI脱水干货 报道 |  腾讯AI实验室 计算机视觉领域三大顶会之一的 ECCV(欧洲计算机视觉会议)今年于 8 月 23-28 日举办.受新冠肺炎疫情影响,今年的 EC ...

最新文章

  1. C语言:随笔6--指针1.2
  2. Android程序如何在代码中改变图片原有的颜色
  3. 调整html css表格位置,调整表格中的列宽(CSS / HTML)
  4. 一份关于kaggle特征构建技巧和心得 1
  5. php pdo 更新sql语句,增删改查sql语句及PDO数据库连接操作流程实例-2019年7月24日...
  6. 记录一次K8s-Flannel插件的坑
  7. ORACLE DUAL表详解
  8. js实现撤销恢复_电脑硬盘丢失的资料怎么恢复?选对方法是关键
  9. java stringbuilder清空_Java中StringBuilder的清空方法比较
  10. python什么是数据结构_Python中最有效的图形数据结构是什么?
  11. sqlite 按拼音排序
  12. 2.0显示为整数 java_Java如何将系统属性读取为整数?
  13. 无线传输wireless
  14. usb声卡驱动_哑巴电脑拯救者——它可能是你见过使用最简单的外接声卡!
  15. 2019-03-02 致虚极守静笃 读老子《道德经》有感
  16. SRE实战手册-基础篇
  17. 心有景旗,志存远方——湖南安全技术职业学院美和易思愿景图活动
  18. 听说今年金三银四变成金一银二了。。
  19. linux通讯录软件带头像,Ubuntu联系人应用已支持增强的头像功能
  20. 字节跳动2020秋招笔试题

热门文章

  1. HMM -GMM 理清不错
  2. tensorflow1.0代码迁移到2.0官方指导
  3. JAVA sql2000 连接细节
  4. 前端进阶(三) webpack处理vue以及vue-cli脚手架环境
  5. 打开深度学习的黑盒,详解神经网络可解释性
  6. 【报名】杨植麟 :从学习的角度看NLP的现状与未来
  7. WebAssembly能不能取代JavaScript?15张卡通图给你答案!
  8. RDD(Resilient Distributed Datasets 弹性分布式数据集)
  9. 终于把时间序列分析的关键点全讲清楚了!
  10. 从数理统计简史中看正态分布的历史由来