点击我爱计算机视觉标星,更快获取CVML新技术


目前,2019年国际计算机视觉大会(ICCV 2019),正在韩国首尔(Seoul)举行。华为公司不仅成为了会议的铂金赞助商,其下属的诺亚方舟实验室更是在本届大会上发表(或联合发表)19篇论文,其中两篇工作为口头报告,充分展现了华为公司持续回馈学界和与学界共同成长的战略和决心。

华为诺亚的19篇论文,涉及计算机视觉的各个领域。

从研究任务层面看,覆盖了从底层视觉、中层表示学习到高层语义识别的视觉任务;

从资源利用角度看,不仅有最近火热的包括网络自动搜索和网络压缩等高效利用计算资源方面的工作,也有通过数据生成方法利用有限的数据资源进行语义识别的工作;

而从贡献角度看,这些工作能够为学界提供了丰富的视觉数据、完整的训练端解决方案和新颖的视角,以供研究和开发人员更充分地探索计算机视觉领域。

ICCV 2019代表性工作介绍

下面,我们从每个方向中选取1-2篇被 ICCV 2019 接收的论文,以展示华为诺亚及与合作单位在计算机视觉方面的最新研究成果。

【底层视觉】Indices Matter : Learning to Index for Deep Image Matting

本文提出了一种新颖图像 Matting 技术,将现有的上采样运算与索引函数的概念进行了统一。这一概念的灵感来自于对深层图像 matting 的解码过程进行观察,在该过程中,索引引导的上池化操作可比其他上采样运算方式(如双线性插值)更好地恢复边缘细节。通过将索引视为特征图的函数,本文提出了学习索引的概念,并提出了一种新颖的索引引导式编码器-解码器框架,其中索引是从数据中自适应学习获得,并用于无监督的指导池化和上采样运算。该框架的核心是一个称为 IndexNet 的灵活网络模块,该模块可以动态预测给定输入的索引。由于具有灵活性, IndexNet 可以用作插件,适用于将下采样和上采样阶段耦合在一起的任何现成的卷积网络。本文证明了 IndexNet 在自然图像 matting 任务上的有效性,在该任务中可以从预测的alpha遮罩中直观地观察到学习索引的质量。Composition-1kmatting 数据集上的实验结果表明,基于 MobileNetv2 构建的模型比基于 VGG-16 的 deep matting 基线具有至少16.1%的改进,同时训练数据的需求数量也更较少。

【数据生成】Co-Evolutionary Compression for Unpaired Image Translation

生成对抗网络(Generative Adversarial Network,GAN)在图像风格迁移等视觉任务上应用广泛,但是生成网络往往结果复杂,参数量和计算量大,消耗算力和时间。现有的模型压缩加速算法大多针对分类网络设计,本文首次提出针对生成网络的剪枝算法,提出用一种协同进化的方式同时压缩两个对称的生成网络。在常见的两个图像风格域的互相转换任务中,对两个生成网络分别维持一个种群,交替地优化两个种群中的个体,选出生成网络结构中重要的卷积核。针对图像风格转换任务,设计了一种新的个体适应值的计算方式,适应值由网络的参数量、判别器损失和循环一致损失组成。我们在 horse2zebra、summer2winter_yosemite 和 cityscape 等多个图像风格迁移的数据集上进行了大量实验。实验证明采用本文提出的协同进化的压缩方法可以在保持迁移效果的情况下,网络参数量和计算量压缩四倍以上,实测推理时间压缩压缩三倍以上。这一项目已经开源(https://github.com/huawei-noah/GAN-pruning)。该工作的扩展已经在内部照片风格化等多个场景中进行应用。

【语义理解】CenterNet : Keypoint Triplets for Object Detection

基于关键点的目标检测方法例如最具代表性的 CornerNet 通过检测物体的左上角点和右下角点来确定目标,但在确定目标的过程中,无法有效利用物体的内部的特征,即无法感知物体内部的信息,从而导致该类方法产生了很多误检 (错误目标框)。本文利用关键点三元组即中心点、左上角点和右下角点三个关键点而不是两个点来确定一个目标,使网络花费了很小的代价便具备了感知物体内部信息的能力,从而能有效抑制误检。另外,为了更好的检测中心点和角点,我们分别提出了 center pooling 和 cascade corner pooling 来提取中心点和角点的特征。我们方法的名字叫 CenterNet,是一种 one-stage 的方法,在最具挑战性之一的数据集 MS COCO上,获得了47% AP,超过了所有已知的 one-stage 检测方法,并大幅度领先,其领先幅度至少达 4.9%。这一项目已经开源(https://github.com/Duankaiwen/CenterNet)。该工作已经在开源平台 github 上获得超过1200颗星的关注。

【语义理解】Enforcing Geometric Constraints of Virtual Normal for Depth Prediction

本文提出了一种有监督单目深度估计的方法。单目深度估计在理解3D场景几何关系方面起着至关重要的作用。尽管最近的方法在评估指标(如逐像素相对误差)方面取得了令人瞩目的进步,但大多数方法都忽略了3D空间中的几何约束。本文展示了高阶3D几何约束对于深度预测的重要性。通过设计添加一种简单类型的几何约束的损失项,即由重构的3D空间中随机采样的三个点确定的虚拟法线方向的约束,我们可以大大提高深度预测的准确性。重要的是,在预测深度足够精确的同时,我们能够直接从深度恢复场景的良好3D结构,例如点云和表面法线,而无需像以前那样训练新的子模型。在 NYU Depth-V2 和 KITTI 两个数据集上进行的实验证明了我们方法的有效性和高效性。

【视觉计算】Progressive Differentiable Architecture Search : Bridging the Depth Gap between Search and Evaluation [Oral]

本文提出了一种渐进式可微分网络结构搜索算法,用于解决可微分网络结构搜索中的深度差异和稳定性问题。可微分网络结构搜索方法极大地提升了网络结构搜索的速度。然而,搜索得到的网络结构在测试和转移到其他数据集时,往往性能不佳。这是因为受限于显存大小等因素,在搜索时使用的网络较浅,而在测试的时候使用的网络较深。然而,在较浅的搜索网络上得到的结构并不完全适用于较深的测试网络,这也是导致这类方法的稳定性较差的重要原因。本文提出一种渐进式可微分网络结构搜索方法,通过渐进地缩小搜索空间同时增加搜索网络深度的方式,缩小搜索网络与测试网络的深度差异,同时通过搜索空间正则减小的性能波动,从而在降低了搜索开销的同时,大幅度提升了可微分网络结构搜索的性能和稳定性。这一项目已经开源(https://github.com/chenxin061/pdarts)。该工作已经在开源平台 github 上获得了将近200颗星,并且其扩展已经在内部的移动终端上等多个场景中进行应用。

【视觉计算】Multinomial Distribution Learning for Effective Neural Architecture Search [Oral]

近年来,通过神经架构搜索(NAS)算法生成的架构在各种计算机视觉任务中获得了极强的的性能。然而,现有的 NAS 算法需要在上百个 GPU 上运行 30 多天。在本文中,我们提出了一种基于多项式分布估计快速 NAS 算法,它将搜索空间视为一个多项式分布,我们可以通过采样-分布估计来优化该分布,从而将 NAS 可以转换为分布估计/学习。除此之外,本文还提出并证明了一种保序精度排序假设,进一步加速学习过程。在 CIFAR-10 上,通过我们的方法搜索的结构实现了 2.55%的测试误差,GTX1080Ti 上仅 4 个 GPU小时。在 ImageNet 上,我们实现了 75.2%的 top1 准确度。这一项目已经开源(https://github.com/tanglang96/MDENAS)。

【视觉计算】Auto-FPN : Automatic Network Architecture Adaptation for Object Detection Beyond Classification

本文探索了如何使用神经网络架构搜索技术来构建高效、准确的目标检测网络。1.通过对搜索空间的连续化,大大缩短了搜索的时间开销。在目标检测的大规模数据集 MSCOCO 上,我们的方法只需要搜索2天即可得到较好的架构。2、对于目前目标检测领域最常用的 FPN 网络,我们使用神经网络搜索对其中的特征融合网络以及分类网络进行了改进,使得这两个部分的参数量缩减了50%以上,同时网络整体上依然能够达到很高的准确率。3、我们将搜索得到的网络在目前各大主流的目标检测公开数据集 VOC,COCO,BDD,ADE 以及 VG 上都进行了测试,发现在各个数据集上均能够取得较好的效果,这说明我们的方法具备很好的泛化能力。该工作的扩展已经在内部多个场景中进行应用。

【3D视觉】Semantic Part Detection via Matching : Learning to Generalize to Novel Viewpoints from Limited Training Data

本文探究了一个极具挑战性的课题:物体的语义部件检测,并且提出了一个基于三维建模、解释性强的算法。该算法假设每个待检测物体能够与虚拟世界中的一个三维模型建立联系,从而该算法就能够轻松地将三维模型上预设好的语义部件适配到待检测物体上。依托三维模型进行检测的一个重要优势,是能够避免二维图像上的变换(如遮挡)带来的影响,从而在 VSP(一个可调节遮挡比例的物体部件检测数据集)上超过最优二维检测算法的性能。本文论证了以三维模型辅助二维检测的新方向,且框架内的许多模块都能够方便地替换为更先进的解决方案,从而进一步提升检测准确率。

【视觉多模态】Semantic-Aware Knowledge Preservation for Zero-Shot Sketch-Based Image Retrieval

本文研究了跨模态(草图到自然图像)检索问题,并且针对其中 zero-shot 设置下的灾难性遗忘(catastrophic forgetting)现象进行了探究。本文在域迁移(domain adaptation)的范围内研究了这些现象,并且指出在训练过程中加入一定的语义限制就能够很好地缓解灾难性遗忘问题。本文从 ImageNet 上的预训练模型出发,并且要求模型在适应草图域(fine-tuning)的过程中,依然保持原域下学习过的知识,例如一张草图(通常含有某种超类)在自然图像分类器下,不应在其子类范围外有较大的响应。同时,本文还引入了知识蒸馏的方法,以进一步保留原模型学到的知识。结合这些方法,本文在两个流行的草图检索数据集上达到了当前最佳的 zero-shot 检索性能。本文表明了 zero-shot 检索和跨域学习之间存在的深层联系,为未来研究指出了一条新路。

致谢:感谢我们的合作伙伴

华为诺亚方舟实验室与国内外的许多科研机构保持着长期合作关系。借此机会,诺亚感谢这些合作伙伴为我们提供了源源不断的创新思想、优秀的研究员和充满活力的实习生。其中,诺亚与清华大学、北京大学、中国科学技术大学、中国科学院大学、上海交通大学、同济大学、厦门大学、西安交通大学、中山大学等国内院校,中国科学院、鹏城实验室等国内科研机构,以及牛津大学、悉尼大学、阿德莱德大学等海外院校保持战略合作关系,极大地扩充了诺亚的研究版图。未来,诺亚还将与更多科研机构建立并深化合作,塑造产业界和学术界相互支持、共同成长的典范。

附录:华为诺亚在ICCV 2019的完整论文列表

(以下论文以作者姓氏排序)

Yutong Bai, Qing Liu, Lingxi Xie, Weichao Qiu, Yan Zheng, Alan L. Yuille. Semantic Part Detection via Matching : Learning to Generalize to Novel Viewpoints From Limited Training Data, Poster 3.2, #156.

Hanting Chen, Yunhe Wang, Chang Xu, Zhaohui Yang, Chuanjian Liu, Boxin Shi, Chunjing Xu, Chao Xu, Qi Tian .Data-Free Learning of Student Networks, Poster2.1, #60.

Xin Chen, Lingxi Xie, Jun Wu, Qi Tian. Progressive Differentiable Architecture Search : Bridging the Depth Gap Between Search and Evaluation, Oral 1.2A,#2.

Kaiwen Duan, Song Bai, Lingxi Xie, Honggang Qi, Qingming Huang, Qi Tian. CenterNet : Keypoint Triplets for Object Detection, Poster 3.2, #61.

Jiaxin Gu, Junhe Zhao, Xiaolong Jiang, Baochang Zhang, Jianzhuang Liu, Guodong Guo, Rongrong Ji. Bayesian Optimized 1-Bit CNNs, Poster 3.1, #49.

Jianyuan Guo, Yuhui Yuan, Lang Huang, Chao Zhang, Jin-Ge Yao, Kai Han. Beyond Human Parts: Dual Part-Aligned Representations for Person Re-Identification, Poster 2.1, #73.

Aoxue Li, Tiange Luo, Tao Xiang, Weiran Huang, Liwei Wang. Few-Shot Learning With Global Class Representations, Poster 4.2, #57.

Jianing Li, Jingdong Wang, Qi Tian, Wen Gao, Shiliang Zhang. Global-Local Temporal Representations for Video Person Re-Identification, Poster 2.1, #106.

Jie Li, Rongrong Ji, Hong Liu, Xiaopeng Hong, Yue Gao, Qi Tian. Universal Perturbation Attack Against Image Retrieval, Poster 3.1, #48.

Qing Liu, Lingxi Xie, Huiyu Wang, Alan L.Yuille. Semantic-Aware Knowledge Preservation for Zero-Shot Sketch-Based Image Retrieval, Poster 2.1, #75.

Jinxian Liu, Bingbing Ni, Caiyuan Li, Jiancheng Yang, Qi Tian. Dynamic Points Agglomeration for Hierarchical Point Sets Learning, Poster 3.2, #157.

Hao Lu, Yutong Dai, Chunhua Shen, Songcen Xu. Indices Matter : Learning to Index for Deep Image Matting, Poster 2.1, #35.

Guo-Jun Qi, Liheng Zhang, Chang Wen Chen, Qi Tian . AVT : Unsupervised Learning of Transformation Equivariant Representations by Autoencoding Variational Transformations, Poster 4.1, #50.

Han Shu, Yunhe Wang, Xu Jia, KaiHan, Hanting Chen, Chunjing Xu, Qi Tian, Chang Xu. Co-Evolutionary Compression for Unpaired Image Translation, Poster2.1, #32.

Hang Xu, Lewei Yao, Wei Zhang, Xiaodan Liang, Zhenguo Li. Auto-FPN : Automatic Network Architecture Adaptation for Object Detection Beyond Classification, Poster 3.2, #69.

Wei Yin, Yifan Liu, Chunhua Shen, Youliang Yan. Enforcing Geometric Constraints of Virtual Normal for Depth Prediction, Poster 3.1, #126.

Haokui Zhang, Chunhua Shen, Ying Li, Yuanzhouhan Cao, Yu Liu, Youliang Yan.  Exploiting Temporal Consistency for Real-Time Video Depth Estimation, Poster 1.2,#45.

Xiawu Zheng, Rongrong Ji, Lang Tang, Baochang Zhang, Jianzhuang Liu, Qi Tian. Multinomial Distribution Learning for Effective Neural Architecture Search,  Oral 1.2,#3.

Yuefu Zhou, Ya Zhang, Yanfeng Wang, Qi Tian. Accelerate CNN via Recursive Bayesian Pruning, Poster 2.1, #39.

本文转自诺亚实验室。


CV细分方向交流群

52CV已经建立多个CV专业交流群,包括:目标跟踪、目标检测、语义分割、姿态估计、人脸识别检测、医学影像处理、超分辨率、神经架构搜索、GAN、强化学习等,扫码添加CV君拉你入群,如已经为CV君其他账号好友请直接私信,

(请务必注明相关方向,比如:目标检测

喜欢在QQ交流的童鞋,可以加52CV官方QQ群:805388940。

(不会时时在线,如果没能及时通过验证还请见谅)


长按关注我爱计算机视觉

华为诺亚CV方向19篇论文入选ICCV 2019相关推荐

  1. 商汤科技62篇论文入选CVPR 2019!多个竞赛项目夺冠!

    点击我爱计算机视觉标星,更快获取CVML新技术 心心念念,人工智能从业者翘首以盼的CVPR 2019终于来了! 作为与ICCV.ECCV并称为计算机视觉领域三大国际会议之一,本届CVPR大会共收到52 ...

  2. 商汤62篇论文入选CVPR 2019,一览五大方向最新研究进展

    (图源自视觉中国) 作为与ICCV.ECCV并称为计算机视觉领域三大国际会议之一,本届CVPR大会共收到5265篇有效投稿,接收论文1300篇,接收率为25.2%. 商汤科技CVPR 2019录取论文 ...

  3. 商汤科技20篇论文入选ICCV 2017,披露最新研究主线

    来源自 商汤科技 量子位 出品 | 公众号 QbitAI 本月22-29日,是两年一度的国际计算机视觉大会(ICCV)召开的日子. 于往届ICCV相比,本届 ICCV堪称火爆.据组委会统计,ICCV ...

  4. 技术解读:腾讯优图12篇论文入选 ICCV 2017

    机器之心发布 来源:腾讯优图实验室 被誉为计算机视觉领域三大顶级会议之一的 ICCV(另外两个为 CVPR.ECCV)不久之前揭晓了收录论文名单,腾讯优图共有 12 篇论文入选,居业界实验室前列,其中 ...

  5. AAAI 2023:清华SIGS信息学部19篇论文入选,含多模态、目标检测、语义分割等方向...

    2022 点击蓝字 关注我们 关注并星标 从此不迷路 计算机视觉研究院 计算机视觉研究院专栏 作者:Edison_G AAAI是人工智能领域最重要的顶级国际学术会议之一,旨在推动人工智能领域的研究和应 ...

  6. 17篇论文入选CVPR 2019,百度AI都在关注什么?(附论文地址)

    整理 | 阿司匹林 出品 | AI科技大本营(公众号id:rgznai100) 计算机视觉和模式识别大会CVPR 2019即将于6月在美国长滩召开,作为人工智能领域计算机视觉方向的重要学术会议,CVP ...

  7. 腾讯58篇论文入选CVPR 2019,两年增长超200%

    全球计算机视觉顶级会议 IEEE CVPR 2019(Computer Vision and Pattern Recognition,即IEEE国际计算机视觉与模式识别会议) 即将于6月在美国长滩召开 ...

  8. 科学家王海峰:从百度十篇论文入选ACL 2019说起

    http://hz.m.chinanews.com/wapapp/toutiao/business/2019/05-29/8850698.shtml 2019-05-29 17:13:09 中新网5月 ...

  9. 重磅!腾讯优图17篇论文入选ICCV 2021

    计算机视觉世界三大顶会之一的ICCV 2021论文接收结果出炉!本次大会收到来自全球共6236篇有效投稿,最终有1617篇突出重围被录取,录用率约为25.9%.此次ICCV 2021接收的论文分为检测 ...

最新文章

  1. bootstrap之双日历时间段选择控件—daterangepicker(汉化版)
  2. ThinkPad E440 加内存后导致开不了机
  3. java同步读写,关于java:Collections中的synchronizedMap方法是否同步读写操作
  4. 《Spark GraphX in Action》书评及作者访谈
  5. 2021 年 6 月程序员工资统计,惨不忍睹。。。
  6. mysql主从复制的binlog和relay-log的区别
  7. JAVA 的面向对象设计的特点-书后感-01-21天学通JAVA-深入分析
  8. NGUI_2.6.3_系列教程二
  9. 全网最强的数据可视化秘诀:学会这个工具,数据分析不是事
  10. 华为机试HJ46:截取字符串
  11. 《机器学习Python实践》第4章——Python和SciPy速成
  12. 华为SecoClient报错[SVN Adapter V1.0感叹号]“接受返回码超时”
  13. win10u盘被写保护怎么解除_教你win10系统中u盘被写保护怎么解除
  14. 优启通如何写入linux启动盘,优启通u盘启动盘制作工具使用教程(附下载)
  15. 搜狗url自动推送工具 - 最新版 一直更新
  16. avr单片机c语言计算log,AVR单片机定时器初值计算公式与方法 - 单片机定时器初值计算公式(51单片机和AVR单片机的初值计算三种方法)...
  17. SQL Server超详细使用教程——从安装到编写SQL语句
  18. Linux 文本处理工具——sed
  19. Java学习笔记——十大经典排序算法总结
  20. 华为鸿蒙系统能玩安卓游戏吗_华为正式发布鸿蒙系统 鸿蒙和安卓游戏数据是否互通...

热门文章

  1. 一个简单的PHP邮件列表管理器
  2. php mysql 复制数据库表结构图_MySQL_Mysql复制表结构、表数据的方法,本文给大家分享了好几种复制 - phpStudy...
  3. 英语四级真题作文 计算机,2019年12月英语四级写作范文:电脑
  4. 怎么输出一个二维数组_LeetCode54与59,一个口诀教会你旋转二维数组
  5. 我的世界末日求生系列服务器,末日生存 少年pi
  6. python例题代码_python26个练习题及代码-789
  7. 以太网实习_从最初有从事IT的想法,到现在实习两个月的感受
  8. 计算机领域 热点应用,2017年度计算机科学各领域热点词汇
  9. php多站点共享用户表,php – Zend_Auth:允许用户登录到多个表/身份
  10. android string.format()长度,Android通过String.format格式化(动态改变)字符串资源的显示内容...