来源自 商汤科技

量子位 出品 | 公众号 QbitAI

本月22-29日,是两年一度的国际计算机视觉大会(ICCV)召开的日子。

于往届ICCV相比,本届 ICCV堪称火爆。据组委会统计,ICCV 2017共收到2143篇论文投稿,其中621篇被选为大会论文,录用比例29%。其中包含45篇口头报告(Oral)和56篇亮点报告(Spotlight),参会人数预计将超过3000人。

本届ICCV中,商汤科技与香港中大-商汤科技联合实验室共发表了20篇论文,其中包括3篇Oral (录取率仅2.09%)和1篇Spotlight,领先于Facebook(15篇)、Google Research(10篇)等科技巨头。

ICCV是计算机视觉领域最高水平的国际学术会议,在其中发表的论文的量与质可以衡量一个公司或者研究机构的学术水平,以及其对未来科技发展潮流的把握。从商汤科技的20篇论文中,可以看到其在研究上重点发力的主线——

跨模态分析:让视觉与自然语言联合起来

在过去几年,随着深度学习的广泛应用,计算机视觉取得了突破性的发展,很多传统任务(比如图像分类,物体检测,场景分割等)的性能大幅度提高。但是在更高的水平上,计算机视觉开始遇到了新的瓶颈。要获得新的技术进步,一个重要的方向就是打破传统视觉任务的藩篱,把视觉理解与自然语言等其它模态的数据结合起来。

在这一方向上,商汤科技有4篇论文被ICCV 2017录用,包括一篇Oral。

代表:《Towards Diverse and Natural Image Descriptions via a Conditional GAN (Oral)》

作者:Bo Dai, Sanja Fidler, Raquel Urtasun, Dahua Lin.

看图说话,也就是根据图像生成描述性标题,是今年来非常活跃的研究领域。现有的方法普遍存在一个问题,就是产生的标题很多是训练集中的表述的简单重复,读起来味同嚼蜡。这一问题的根源在于学习目标过分强调与训练集的相似性。

这篇论文提出了一种新型的基于Conditional GAN的训练方法,把描述生成模型与评估模型合同训练。这样,评估的标准从“像不像训练集”变成“像不像人说话”,从而驱动生成模型产生更加自然、生动,并具有丰富细节的描述。这一工作为看图说话任务提供了新的思路。在User Study中,这种新的方法以6:4的胜率战胜了传统的方法。

另外两篇paper则从相反的方向思考,力图利用相关文本的信息来帮助提高视觉理解的能力。

代表:《Scene Graph Generation from Objects, Phrases and Caption Regions》

作者:Yikang Li, Bolei Zhou, Wanli Ouyang, Xiaogang Wang, Kun Wang.

这篇论文把三个有密切关系的任务——物体检测,场景图生成,以及图像区域的描述联合在一起,并且利用它们之间的关系建立了一个多层次的场景描述模型—— Multi-level Scene Description Network (MSDN)。

通过这个联合模型,传统上分离开来的三个任务可以结合在一起进行端对端的训练,从而使得每个任务都获得性能的提升。尤其在代表对图像综合理解能力的场景图生成任务上,性能提高超过了3%。

代表:《Learning to Disambiguate by Asking Discriminative Questions》

作者:Yining Li, Chen Huang, Xiaoou Tang, Chen Change Loy.

这篇论文探索了一个新的方向,即透过提出有鉴别力的问题来区分不同的视觉实体。比如当你需要区分一只白色的狗和一只黑色的狗的时候,可以提出关于颜色的问题。

为了支持这个方向的探索,作者在这项工作中建立了一个新的数据集,里面含有了超过一万组包含成对图像与多个相关问题的样本;并且提出了一种新型的弱监督训练方法,可以在缺乏细致标注的条件下,同时学习到一个具有区分度的问题生成器,以及能提供准确答案的鉴别模型。

代表:《Identity-Aware Textual-Visual Matching with Latent Co-attention》

作者:Shuang Li, Tong Xiao, Hongsheng Li, Wei Yang, Xiaogang Wang.

特征匹配是跨模态学习的核心环节。这篇论文提出了一个新的文本与视觉特征匹配的框架。这个框架由两个阶段组成。

第一阶段能迅速排除明显错误的配对,并为第二阶段的训练提供效度更高的训练样本。第二阶段通过一个新的关联注意力模型(co-attention model),把文本中的单词关联到图像中的特定区域。

在三个公开数据集上(CUHK-PEDES, CUB, Flowers),本文提出的方法都显著超过现行的主流方法。

视频分析:让计算机看懂视频

虽然深度学习在图像分析中取得了巨大的成功,它在视频的理解与分析中的应用还有很长的路要走。相比于图像,视频数据具有更大的数据量以及更丰富的结构,因而也为视觉分析技术提出了更高水平的挑战。

商汤科技在数年前就开始了把深度学习用于视频分析与理解的探索,提出了包括Temporal Segmental Networks (TSN)在内的多种有很大影响并被广泛应用的视频分析架构,并在ActivityNet 2016取得了冠军。

在2017年,商汤科技以及相关实验室继续把这个方向的探索推向纵深,并在ICCV 2017发表了两项重量级的工作,包括一篇Oral。

代表:《RPAN: An End-To-End Recurrent Pose-Attention Network for Action Recognition in Videos. (Oral)》

作者:Wenbin Du; Yali Wang; Yu Qiao.

通常的视频分析模型大部分是基于video-level的类别进行监督学习的,这种方法的局限是难以学习到复杂的运动结构。这篇论文另辟蹊径,着力于动态人体的建模,并提出了一个新型的可以端对端训练的深度网络架构 Recurrent Pose Attention Network (RPAN)。

该架构不仅可以自适应地整合人体运动姿态的特征,还能很好地学习其时空演化结构。这项工作一方面为视频动作理解提供了新的方法,另一方面作为副产品也获得了一个不错的粗粒度姿态估计的模型。

代表:《Temporal Action Detection with Structured Segment Networks》

作者:Yue Zhao, Yuanjun Xiong, Zhirong Wu, Xiaoou Tang, Dahua Lin.

时域上的动作检测是近两年兴起的新型视频分析任务。相比于传统的动作分类,这个任务更具有挑战性,不仅需要判断一个运动或者事件的类型,还需要获得它的准确起止时间。这个任务在实际场景中有很大的潜在价值,比如它可以从长时间的运动视频或者电影中自动定位到相关的精彩片段。

这篇论文提出了一种新型的视频动作检测模型,它在TSN的基础上引入了三段结构模型以更有效地捕捉运动起始段与终结段的特征。基于这一架构,动作分类器与时间定位器可以端到端联合训练。这个方法在多个大型视频数据集上(包括THOMOS和ActivityNet)取得了比现有方法超过10个百分点的提升。

生成对抗网络:让计算机学习创作

最近两年,由于生成对抗网络(Generative Adversarial Networks)的提出,生成模型(generative model)的学习成为一个新兴的研究方向。

和传统的鉴别模型(discriminative model)主要关注信息提炼不同,生成模型需要从零开始,或者基于信息量非常有限的给定条件,产生出完整的图像,因此特别具有挑战性。

这个研究方向在消费领域具有巨大的应用价值,同时它也可以通过产生训练样本的方式反哺传统领域的研究。商汤科技在这个新兴领域也积极开展研究,取得不少新的成果,并在ICCV 2017发表了两项相关工作,包括一篇Oral。

代表:StackGAN: Text to Photo-realistic Image Synthesis with Stacked Generative Adversarial Networks.n (Oral)

作者:Han Zhang, Ttao Xu, Hongsheng Li, Shaoting Zhang, Xiaogang Wang, Xiaolei Huang, Dimitris Metaxas.

生成高质量的图像是生成模型研究的核心问题。这篇文章提出了一个新型的生成框架,StackGAN,它能够根据简短的文字描述生成解析度为256 x 256的高质量图片。生成如此高解析度的照片是一个极具挑战性的问题,此前的生成模型通常只能产生大小为64 x 64的图片。

本文提出的方法把这个困难的任务分解为两个阶段。在第一阶段,先根据文字描述产生粗粒度的草图,以第一阶段的结果作为输入,第二阶段产生高解析度的图像,并补充丰富的细节。此文还进一步提出了一种新型的条件增强技术,以改进训练过程的稳定性。

和现有的生成网络相比,StackGAN在生成图片的质量的解析度上获得了非常显著的进步。

代表:《Be Your Own Prada: Fashion Synthesis with Structural Coherence》

作者:Shizhan Zhu, Dahua Lin, Raquel Urtasun, Sanja Fidler, Chen Change Loy.

这篇文章探索了一个极具应用价值的方向,把生成模型引入时尚领域:提出一种崭新的方法产生换装照片。具体而言,给定一个人的照片,以及对换装的描述,此文提出的方法可以根据对换装的描述,比如“黑色的短袖长裙”,产生换装后的照片。

和一般的生成任务相比,换装任务更具挑战性,换装照不仅需要符合文字描述,而且需要和原照片中人体的姿态相吻合。此文提出一个两阶段的框架解决这个问题:第一阶段产生一个和人体姿态吻合的分区图,第二阶段以此为基础生成具有精细细节的服装图像。

除了在新兴方向上积极开拓,商汤科技在一些重要的核心领域,包括人脸检测、物体检测、人体姿态估计、实际场景中的身份再识别等,也持续投入,精益求精,在本届ICCV发表多篇相关论文。

商汤科技ICCV 2017论文列表

  1. “StackGAN: Text to Photo-realistic Image Synthesis with Stacked Generative Adversarial Networks”. Han Zhang, Ttao Xu, Hongsheng Li, Shaoting Zhang, Xiaogang Wang, Xiaolei Huang, Dimitris Metaxas.

  2. “Scene Graph Generation from Objects, Phrases and Caption Regions”. Yikang Li, Bolei Zhou, Wanli Ouyang, Xiaogang Wang, Kun Wang.

  3. “Online Multi-Object Tracking Using Single Object Tracker with Spatial and Temporal Attention”. Qi Chu, Wanli Ouyang, Hongsheng Li, Xiaogang Wang, Nenghai Yu.

  4. “Learning Feature Pyramids for Human Pose Estimation”. Wei Yang, Wanli Ouyang, Shuang Li, Xiaogang Wang.

  5. “Learning Chained Deep Features and Classifiers for Cascade in Object Detection”. Wanli Ouyang, Xiaogang Wang, Kun Wang, Xin Zhu.

  6. “Identity-Aware Textual-Visual Matching with Latent Co-attention”. Shuang Li, Tong Xiao, Hongsheng Li, Wei Yang, Xiaogang Wang.

  7. “Towards Diverse and Natural Image Descriptions via a Conditional GAN”. Bo Dai, Sanja Fidler, Raquel Urtasun, Dahua Lin.

  8. “Temporal Action Detection with Structured Segment Networks”. Yue Zhao, Yuanjun Xiong, Zhirong Wu, Dahua Lin.

  9. “Learning to Disambiguate by Asking Discriminative Questions”. Yining Li, Chen Huang, Xiaoou Tang, Chen Change Loy.

  10. “Be Your Own Prada: Fashion Synthesis with Structural Coherence”. Shizhan Zhu, Raquel Urtasun, Sanja Fidler, Dahua Lin, Chen Change Loy.

  11. “Recurrent Scale Approximation for Object Detection in CNN”. Yu LIU, Hongyang Li, Junjie Yan, Xiaogang Wang, Xiaoou Tang.

  12. “Orientation Invariant Feature Embedding and Spatial Temporal Re-ranking for Vehicle Re-identification”. Zhongdao Wang, Luming Tang, Xihui Liu, Zhuliang Yao, Shuai Yi, Jing Shao, Junjie Yan, Shengjin Wang, Hongsheng Li, Xiaogang Wang.

  13. “Multi-label Image Recognition by Recurrently Discovering Attentional Regions”. Zhouxia Wang, Tianshui Chen, Guanbin Li, Ruijia Xu, Liang Lin.

  14. “HydraPlus-Net: Attentive Deep Features for Pedestrian Analysis”. Xihui Liu, Haiyu Zhao, Maoqing Tian, Lu Sheng, Jing Shao, Shuai Yi, Junjie Yan, Xiaogang Wang.

  15. “Learning Deep Neural Networks for Vehicle Re-ID with Visual-spatio-temporal Path Proposals”. Yantao Shen, Tong Xiao, Hongsheng Li, Shuai Yi, Xiaogang Wang.

  16. “Deep Dual Learning for Semantic Image Segmentation”. Ping Luo, Guangrun Wang, Liang Lin, Xiaogang Wang.

  17. “Detecting Faces Using Inside Cascaded Contextual CNN”. Kaipeng Zhan, Zhanpeng Zhang, Hao Wang, Zhifeng Li, Yu Qiao, Wei Liu.

  18. “Single Shot Text Detector With Regional Attention”. Pan He; Weilin Huang, Tong He, Qile Zhu, Yu Qiao, Xiaolin Li.

  19. “RPAN: An End-To-End Recurrent Pose-Attention Network for Action Recognition in Videos”. Wenbin Du, Yali Wang, Yu Qiao.

  20. “Range Loss for Deep Face Recognition With Long-Tailed Training Data”. Xiao Zhang, Zhiyuan Fang, Yandong Wen, Zhifeng Li, Yu Qiao.

纵览ICCV 2017

最后,附所有ICCV 2017录用论文列表地址:

http://openaccess.thecvf.com/ICCV2017.py

论文均可下载查看~

加入社群

量子位AI社群10群开始招募啦,欢迎对AI感兴趣的同学,加小助手微信qbitbot4入群;

此外,量子位专业细分群(自动驾驶、CV、NLP、机器学习等)正在招募,面向正在从事相关领域的工程师及研究人员。

进群请加小助手微信号qbitbot4,并务必备注相应群的关键词~通过审核后我们将邀请进群。(专业群审核较严,敬请谅解)

诚挚招聘

量子位正在招募编辑/记者,工作地点在北京中关村。期待有才气、有热情的同学加入我们!相关细节,请在量子位公众号(QbitAI)对话界面,回复“招聘”两个字。

量子位 QbitAI

վ'ᴗ' ի 追踪AI技术和产品新动态

商汤科技20篇论文入选ICCV 2017,披露最新研究主线相关推荐

  1. ICCV 2019 | 商汤科技57篇论文入选,13项竞赛夺冠

    点击我爱计算机视觉标星,更快获取CVML新技术 本文转载自商汤科技SenseTime. 商汤科技及联合实验室共有57篇论文入选ICCV 2019(包含11篇Oral),同时在Open Images.C ...

  2. 商汤科技62篇论文入选CVPR 2019!多个竞赛项目夺冠!

    点击我爱计算机视觉标星,更快获取CVML新技术 心心念念,人工智能从业者翘首以盼的CVPR 2019终于来了! 作为与ICCV.ECCV并称为计算机视觉领域三大国际会议之一,本届CVPR大会共收到52 ...

  3. 商汤科技43篇论文横扫2017全球顶级视觉学术会议 实习生摘得五项世界冠军

    华人学者7月在夏威夷CVPR 掀起的中国风尚未完全褪去,近日又在水城威尼斯ICCV 引爆中国学术研究风暴.中国最大新锐AI企业商汤科技与香港中大-商汤科技联合实验室,继以23篇论文横扫CVPR后,又以 ...

  4. 技术解读:腾讯优图12篇论文入选 ICCV 2017

    机器之心发布 来源:腾讯优图实验室 被誉为计算机视觉领域三大顶级会议之一的 ICCV(另外两个为 CVPR.ECCV)不久之前揭晓了收录论文名单,腾讯优图共有 12 篇论文入选,居业界实验室前列,其中 ...

  5. 重磅!腾讯优图20篇论文入选CVPR 2021

    点击下方卡片,关注"CVer"公众号 AI/CV重磅干货,第一时间送达 来源:腾讯优图 计算机视觉世界三大顶会之一的CVPR 2021论文接收结果出炉!本次大会收到来自全球共701 ...

  6. CVPR 2021 | 腾讯优图20篇论文入选,含人脸识别、时序动作定位、视频动作分割等领域...

    编辑丨腾讯优图AI开放平台 计算机视觉世界三大顶会之一的CVPR 2021论文接收结果出炉!本次大会收到来自全球共7015篇有效投稿,最终有1663篇突出重围被录取,录用率约为23.7%.本次,腾讯优 ...

  7. 飞步科技三篇论文入选CVPR 2022

    关注公众号,发现CV技术之美 本文转载自飞步无人驾驶 在即将举行的计算机视觉国际顶级会议CVPR 2022中,飞步科技被录用了三篇高水平论文,涉及车道线检测.3D目标检测.少样本分类等与无人驾驶密切相 ...

  8. 重磅!腾讯优图17篇论文入选ICCV 2021

    计算机视觉世界三大顶会之一的ICCV 2021论文接收结果出炉!本次大会收到来自全球共6236篇有效投稿,最终有1617篇突出重围被录取,录用率约为25.9%.此次ICCV 2021接收的论文分为检测 ...

  9. 华为诺亚CV方向19篇论文入选ICCV 2019

    点击我爱计算机视觉标星,更快获取CVML新技术 目前,2019年国际计算机视觉大会(ICCV 2019),正在韩国首尔(Seoul)举行.华为公司不仅成为了会议的铂金赞助商,其下属的诺亚方舟实验室更是 ...

最新文章

  1. Qt pro文件下跨平台宏的使用(windows/linux 以及x86 和 arm的区分)
  2. 转;说说AngularJS中的$parse和$eval
  3. centos7安装ftp_python 编译安装
  4. 心得体悟帖---14、没有自己精品项目永远是个弟弟
  5. Dockerfile使用方法详解
  6. Project Euler 126 - Cuboid layers
  7. (0.2)HarmonyOS鸿蒙开发工具DevEco Studio工程文件目录结构
  8. Java并发编程实战~ReadWriteLock~
  9. zabbix通过钉钉报警
  10. 互联网创业项目失败的7大特征
  11. 50个常用mysql语句_50个常用的sql语句
  12. 呼叫中心基层管理的目标和原则方法细分
  13. 大规模部署桌面虚拟化时的一些思考
  14. apache加nginx加Php,Apache/Nginx为PHP设置、添加$_SERVER服务器环境变量
  15. 手机APP物联网远程控制开关
  16. rapidminer java_在Java应用程序RapidMiner的整合(Integration of RapidMiner i
  17. 软件测试-软件测试总结
  18. civil 3d 计算机配置,Civil 3D技巧:如果做到设计文件的高效出图?
  19. VIM7.3中文手册
  20. Android Compose 版本与 Kotlin 版本的兼容问题

热门文章

  1. 上传excel腾讯云服务器,使用SpringBoot上传文件到腾讯云
  2. ubuntu12.04 启动mysql_ubuntu 12.04 mysql 改utf8 启动不了
  3. 第 4 章 设计模式概述
  4. win7建立服务器文件夹权限,win7 ftp服务器 文件夹权限
  5. linux nona怎么用_Linux nano编辑器命令常用方法
  6. php网页设计设计心得体会,网页设计心得体会范文
  7. 数据结构与算法python语言描述答案_《数据结构与算法Python语言描述》习题第二章第一题(python版)...
  8. linux centos7.9图形界面版本下载_适合在任何地方使用的 Linux:15 个小型 Linux 发行版...
  9. css盒模型只能应用于html,iframe,css样式表,盒模型的使用方法-2019年9月3日
  10. java native 开发环境搭建_Java3D 集成开发环境部署与配置(含实例)