引言:近期,上海交通大学电子信息与电气工程学院在《自然》机器智能杂志子刊上发表关于高维度视觉序列理解上的研究成果《Complex sequential understanding through the awareness of spatial and temporal concepts》。上海交通大学是该论文的唯一单位,也是我校第一篇入选该期刊的论文。于此同时,该团队将该论文代码与近两年在视频理解领域的先进成果开源为视频理解工具箱:AlphaVideo (代码链接:https://alpha-video.github.io/)。在物体跟踪任务(MOT)和行为理解(AVA单模型)上都达到最高准确率比起,比SlowFast[4]有12.6%的相对提高。

图1 动作理解任务的时空信息特征图。左:输入序列;右:空间特征更关注物体形状,时间特征更关注物体运动趋势。

人类视觉理解机理:在人类的视觉认知过程中时间和空间概念解耦。神经科学领域的研究发现在人类的记忆形成过程中,时间信息与空间上下文信息是通过两个相对独立的信息通路到达海马体以形成完整的记忆[1]。

新技能:自主学习时空概念

通过模仿人类的认知机制,本文提出了应用于高维度信息的半耦合结构模型(SCS)。 SCS自主发掘(awareness)时间-空间概念,并让他们耦合协作以理解序列信息。这种能力代表着机器学习模型自主掌握了时空的概念,这是一种更高层的智能。更进一步,时空信息概念的分离也让 “概念编辑”成为了可能。

半耦合结构模型

半耦合结构首先解耦时空信息(模仿人脑中的两条信息通路),并在分别处理时间和空间信息之后将二者耦合(模仿海马体):

hs(·)负责处理空间信息,ht(·)负责时间信息,F负责融合两种信息。

通过堆叠这种半耦合的元结构,我们可以构建深度模型。其中时空信息始终以先解耦再融合的模式向后流动。为了让hs和ht各司其职,研究者们将hs和ht设计为不对称的结构,同时,使用两个特殊的监督目标rs,rt来进一步约束二者关注自己的工作。研究者们进一步提出了一种训练的注意力机制。这种注意力机制控制着模型在优化过程中学习哪种信息。例如在视频信息中,模型可以优先将注意力集中在空间信息上,待空间信息有效且稳定时,逐步将模型训练的注意力转换到时间信息上。

SCS的表现如何?

任务性能对比与传统LSTM比较,代码:

https://doi.org/10.5281/zenodo.3679134

SCS在视频动作分类,自动驾驶,天气预报等4个任务上的性能都超越了传统的序列模型。

概念编辑

有了时空分离的能力,SCS将可以初步做到“概念编辑”。比如,通过编辑空间概念且保留时间概念,我们可以让一个原本用于预测狗的运动轨迹的模型做到预测猫的轨迹。这样将以比较小的代价实现模型的泛化,同时也扩宽模型的使用场景与部署难度。如图6.

图. 6 概念编辑demo。我们让计算机看Flappy Bird的视频,然后看一张静态的Mario图片(外观形象)。在这个过程中,模型并没有接触到任何mario在管道中穿梭的运动信息。通过“概念编辑”,测试时SCS也可以准确地预测mario的运动轨迹。

视频理解工具箱AlphaVideo

视频理解工具箱AlphaVideo中,除了上述SCS时空概念分解,我们也提供了单阶段端对端训练的多目标跟踪模型TubeTK和视频动作检测模型AlphAction。使用一行代码,即可调用预训好的各类模型。

AlphAction

AlphAction是面向行为理解的开源系统,基于MVIG提出的交互理解与异步训练策略[5]在AVA数据集上达到最好准确率,速度达到10帧每秒。15个开源的常见行为基本模型mAP达到约70%,接近可以商用的水平。

TubeTK

TubeTK是上海交大MVIG组提出的基于Bounding-Tube的单阶段训练模型(CVPR2020-oral),是第一个单阶段可以端对端训练的多目标跟踪模型,在MOT-16数据集上达到了66.9MOTA的精度。这是目前online模型仅在MOT训练数据下达到的最高精度[3]。

Fig. 7 TubeTK 可视化结果

Fig. 8 Bounding-Tube示意图。使用bounding-tube可以轻松跟踪到bounding-box无法检测到的被遮挡目标(图中黄色框)

参考文献

[1] Kitamura, T. etal. Entorhinal cortical ocean cells encode specific contexts and drive context-specific fear memory. Neuron 87, 1317–1331 (2015).

[2] Simonyan, K. & Zisserman, A. Two-stream convolutional networks for action recognition in videos. In Proceedings of the 27th International Conference on Neural Information Processing Systems 568–576 (ACM, 2014).

[4] Feichtenhofer, C., Fan, H., Malik, J., & He, K. (2019). Slowfast networks for video recognition. In Proceedings of the IEEE International Conference on Computer Vision (pp. 6202-6211).

[5] Tang, J., Xia, J., Mu, X., Pang, B., & Lu, C. (2020). Asynchronous Interaction Aggregation for Action Detection. arXiv preprint arXiv:2004.07485.

作者简介:

卢策吾 上海交通大学特别研究员。在他加入交大之前,他是斯坦福大学人工智能实验室研究员。他的研究兴趣主要集中在机器人、人工智能和机器人计算机视觉。担任《科学》《自然》人工智能方向审稿人,CVPR 2020的领域主席。他还入选了MIT TR35-《麻省理工技术评论》35位个35岁以下的创新者,求是杰出青年学者(近三年唯一AI方向)。Homepage:http://mvig.sjtu.edu.cn/

庞博 上海交通大学在读博士生,上海交通大学计算机系学士。主要研究方向为计算机视觉和深度学习,尤其是视频理解算法包括动作理解,多目标跟踪,视频关键点估计等。Homepage:https://bopang1996.github.io

汤佳俊 上海交通大学在读硕士生,上海交通大学计算机系学士。主要研究方向为计算机视觉和深度学习,尤其是视频动作理解算法。

作者:

杜晓东

供稿单位:

电子信息与电气工程学院

庞博 上海交大计算机系,上海交大电子信息与电气工程学院卢策吾团队在人工智能《自然》子刊提出时空概念提取算法...相关推荐

  1. 上海交大计算机科学技术导师介绍,上海交大电子信息与电气工程学院研究生导师介绍:申丽萍(计算机应用研究所)...

    对于准备报考上海交通大学的考生而言,导师的情况往往左右了你的专业及研究方向,需要慎重选择,鸿知上交大考研网为了更好地服务报考上海交通大学研究生院的考生,我们将陆续整理汇总上海交通大学各学院的硕士研究生 ...

  2. 上海交通大学计算机系过敏意,上海交通大学-电子信息与电气工程学院-电子信息与电气工程学院...

    2011年7月15-17日,由中国密码学会密码算法专业委员会与密码芯片专业委员会联合主办.上海交通大学计算机系承办.上海市计算机学会信息安全专业委员会协办的2011年密码算法与密码芯片学术会议在上海交 ...

  3. 【20保研】上海交通大学电子信息与电气工程学院2020级研究生优秀生源选拔通知...

    点击文末的阅读原文或者公众号界面左下角的保研夏令营或者公众号回复"夏令营"是计算机/软件等专业的所有保研夏令营信息集合,会一直更新的. 补充说明: (1)在 "四.材料清 ...

  4. 上交大计算机推免生源学校,2020上海交通大学电子信息与电气工程学院推免夏令营通知...

    为了2020考研的考生可以更方便的了解院校推免推免工作,及时获取院校推免信息,中公考研小编为大家分享"2020上海交通大学电子信息与电气工程学院推免夏令营通知"相关内容, 希望可以 ...

  5. 姿态估计相比Mask-RCNN提高8.2%,上海交大卢策吾团队开源AlphaPose

    由上海交通大学卢策吾团队发布的开源系统AlphaPose近日上线,该开源系统在标准测试集COCO上较现有最好姿态估计开源系统Mask-RCNN相对提高8.2%.Mask-RCNN是2017年以来计算机 ...

  6. 姿态估计对maskrcnn的优化,姿态估计相比Mask-RCNN提高8.2%,上海交大卢策吾团队开源AlphaPose

    转 2018年02月05日 14:29:24 zchang81 阅读数:3334 查看全文 http://www.taodudu.cc/news/show-5238019.html 相关文章: 上海交 ...

  7. 上海交大卢策吾团队在Nature上发表行为理解最新研究成果!

    点击下方卡片,关注"CVer"公众号 AI/CV重磅干货,第一时间送达 转载自:机器之心 来自上海交通大学的卢策吾教授团队多年来致力于行为理解研究,最新成果已发表在<自然&g ...

  8. 上交电院信息安全比计算机哪个好,上海交通大学-电子信息与电气工程学院-电子信息与电气工程学院...

    又是一年毕业季,看着身边优秀的学长学姐纷纷收货海内外各大高校的offer,相信大二大三的你们面对未来的选择增加了一丝紧迫和迷茫. 考研?保研?出国??? 到底该何去何从...... 电院本科生出国保研 ...

  9. 上海交大计算机系奖学金名额,上海交通大学-电子信息与电气工程学院-学生工作办公室...

    各位同学: 电院2019年研究生国家奖学金.杨嘉墀奖学金申报已经开始. 评审对象: 本次奖学金评审对象为所有具有中华人民共和国国籍且纳入全国研究生招生计划的全日制(全脱产学习)的正常学习年限内的研究生 ...

最新文章

  1. 在B站如何不动一根手指,就可以养成6级大佬?
  2. 制作mac风格 例子(一)
  3. myeclipse中如何在整个工程中搜索字符串
  4. 安装版mysql错误2_【gem安装】mysql2错误
  5. python面试题之docstring是什么?
  6. asp,net 读写cookie(个人笔记)
  7. 为什么你觉得现在做生意这么难?
  8. spark 尽量避免数据源的数据倾斜
  9. 优雅的对 list 遍历进行 add 或者 remove 操作
  10. Oracle----oracle小知识总结
  11. fastboot刷机工具_红魔3/3S 刷机教程
  12. java多线程的15种锁
  13. openGL实现太阳系行星系统
  14. mysql源码及内核分析,MySQL · 源码阅读 · Secondary Engine
  15. 把redis部署到百度BAE上时的注意点
  16. Android应用开发编译框架流程与IDE及Gradle概要
  17. 鸿蒙系统荣耀新机,鸿蒙系统要来了?网传荣耀新机搭载麒麟9000+鸿蒙OS
  18. CUBEMX配置STM32实现FTP文件传输以及使用SNTP获取网络时间并写入RTC
  19. 拼题A (PTA) 公共题集题解收录
  20. 计算机速算训练,5种速算技巧,比计算机“更神速”!值得收藏!

热门文章

  1. 如何利用无线路由接收无线信号
  2. 2022年,开源社最亮的星
  3. cygwin php5.6,cygwin-autoconf环境搭建
  4. Python实现微信支付(三种方式)
  5. 关于ensp路由器一直###的问题
  6. GPIO/输入模式/输出模式的学习
  7. 流量精灵刷流量的实例教程
  8. 广西大学c语言期末试题,2006广西大学c课程考试试卷_答案.pdf
  9. 洗碗机超声波换能器振子设计
  10. 万能RabbitTemplate使用模板