丰色 发自 凹非寺
量子位 报道 | 公众号 QbitAI

用全卷积网络做密集预测 (dense prediction),优点很多。

但现在,你可以试试Vision Transformer了——

英特尔最近用它搞了一个密集预测模型,结果是相比全卷积,该模型在单目深度估计应用任务上,性能提高了28%

其中,它的结果更具细粒度和全局一致性

在语义分割任务上,该模型更是在ADE20K数据集上以49.02%的mIoU创造了新的SOTA

这次,Transformer又在CV界秀了一波操作。

沿用编码-解码结构

此模型名叫DPT,也就是dense prediction transformer的简称。

总的来说,DPT沿用了在卷积网络中常用的编码器-解码器结构,主要是在编码器的基础计算构建块用了transformer。

它通过利用ViT为主干,将ViT提供的词包(bag-of-words)重新组合成不同分辨率的图像特征表示,然后使用卷积解码器将该表示逐步组合到最终的密集预测结果。

模型架构图如下:

具体来说就是先将输入图片转换为tokens(上图橙色块部分),有两种方法:

(1)通过展开图像表征的线性投影提取非重叠的图像块(由此产生的模型为DPT-Base与DPT-Large);

(2)或者直接通过ResNet-50的特征提取器来搞定(由此产生的模型为DPT-Hybrid)。

然后在得到的token中添加位置embedding,以及与图像块独立的读出token(上图红色块部分)。

接着将这些token通过transformer进行处理。

再接着将每个阶段通过transformer得到的token重新组合成多种分辨率的图像表示(绿色部分)。注意,此时还只是类图像(image-like)。

下图为重组过程,token被组装成具有输入图像空间分辨率1/s的特征图。

最后,通过融合模块(紫色)将这些图像表示逐步“拼接”并经过上采样,生成我们最终想要的密集预测结果。

ps.该模块使用残差卷积单元组合特征,对特征图进行上采样。

以上就是DPT的大致生成过程,与全卷积网络不同,ViT主干在初始图像embedding计算完成后放弃了下采样,并在全部处理阶段保持恒定维数的图像表示。

此外,它在每阶段都有一个全局感受野。

正是这两点不同对密集预测任务尤其有利,让DPT模型的结果更具细粒度和全局一致性。

用两种任务来检验效果

具体效果如何?

研究人员将DPT应用于两种密集预测任务。

由于transformer只有在大训练集上才能展现其全部潜能,因此单目深度估计评估是测试DPT能力的理想任务。

他们将DPT与该任务上的SOTA模型进行对比,采用的数据集包含约140万张图像,是迄今为止最大的单目深度估计训练集。

结果是,两种DPT变体的性能均显著优于最新模型(以上指标越低越好)。

其中,与SOTA架构MiDaS相比,DPT-Hybrid的平均相对改善率超过23%,DPT-Large的平均相对改善率则超过28%

为了确保该成绩不仅是由于扩大了训练集,研究人员也在更大的数据集上重新训练了MiDaS,结果仍然是DPT胜出。

通过视觉比较图还可以看出,DPT可以更好地重建细节,可以在对卷积结构具有挑战的区域(比如较大的均匀区域)中提高全局一致性。

另外,通过微调,研究人员发现DPT也可以有效地应用于较小的数据集。

在具有竞争力的语义分割任务上:研究人员在ADE20K数据集上对DPT进行了240个epoch的训练。

结果发现,DPT-Hybrid优于现有的所有全卷积结构,以49.02的mIoU达到了SOTA(其更清晰、更细粒度的边界效果如开头所展示)。

而DPT-Large的性能稍差,研究人员分析可能是因为与之前的实验相比,采用的数据集要小得多。

同时,他们在小数据集(Pascal)上对表现优异的DPT-Hybrid微调了50个epoch后发现,DPT的性能仍然强大。

最后,“百闻不如一见”,如果你想体验DPT的真实效果,可以到Huggingface官网。

论文地址:
https://arxiv.org/abs/2103.13413

模型地址:
https://github.com/intel-isl/dpt

Hugging Face体验地址:

https://huggingface.co/spaces/akhaliq/DPT-Large

英特尔用ViT做密集预测效果超越卷积,性能提高28%,mIoU直达SOTA|在线可玩相关推荐

  1. linux游戏移植,英特尔移植AMD编译器代码可将Linux游戏性能提高10%

    Linux游戏可能不如Windows游戏流行,但它是一个增长中的细分市场.在支持和性能方面,它也在改善.与后者有关,英特尔开放源代码3D驱动程序团队的成员Jason Ekstrand在将AMD编译器代 ...

  2. 英特尔下一任CEO预测:五大热门人选出炉

    11月26消息,据国外媒体报道,英特尔已经承认它需要新鲜血液领导该公司从PC时代过渡到移动时代.这是英特尔CEO欧德宁(Paul Otellini)计划在明年5月提前三年退休的原因. 欧德宁拥有经济学 ...

  3. 从Intel Inside到Intel +,英特尔确实可以做得更多

    我们正处在一个多维的时代中,云计算.大数据.人工智能.物联网等相互作用,织就了多张相互交错的网,成为推动企业数字化转型.社会经济发展的新能动.人们越来越习惯用"+"来体现技术与技术 ...

  4. 英特尔核显自定义分辨率_核显性能大提升 11代酷睿核显畅玩《战地5》

    尽管3A大作<战地5>发布已经有两年,但是时至今日这款经典续作依旧受到了不少玩家的喜爱,也会有不少玩家选择<战地5>作为测试自己电脑性能的入门款游戏.但通常来说,想要流畅运行这 ...

  5. 英特尔核芯显卡控制面板没有了_只认性能你就输了!英特尔第十代酷睿处理器最全解析...

    前不久,英特尔公布了第十代酷睿处理器"Ice Lake"的命名规则,AnandTech网站也曝光了"次旗舰"级别酷睿i7-1065G7处理器的实测性能(详见&l ...

  6. 使用英特尔GPA优化《剑侠情缘三》游戏的性能

    郭胜 (Intel) 于 星期二, 29/09/2009 - 03:16 提交 郭胜(英特尔开发者关系部) 杨林(金山软件西山居游戏工作室) 介绍 游戏在集成显卡上的性能日益成为游戏开发者关注的一个重 ...

  7. 英特尔挤爆牙膏:新AI训练芯片性能超A100,笔记本CPU首上16核5GHz

    梦晨 发自 凹非寺 量子位 | 公众号 QbitAI AI芯片这个高速增长的市场上,英伟达还是绝对的主导者,现阶段占据80%的市场份额. 有力的挑战者悄然出现: 英特尔推出新一代AI训练芯片Gaudi ...

  8. 基于英特尔® 优化分析包(OAP)的 Spark 性能优化方案

    简介: Spark SQL 作为 Spark 用来处理结构化数据的一个基本模块,已经成为多数企业构建大数据应用的重要选择.但是,在大规模连接(Join).聚合(Aggregate)等工作负载下,Spa ...

  9. z3735f android x86,英特尔的Atom Z3735F分析 全文总结_台电 X80HD_平板电脑评测-中关村在线...

    硬件配置:英特尔64位提供性能保证 台电X80HD双系统使用Intel Atom Z3735F四核处理器,最高睿频可达1.83GHz,其采用64位X86架构,搭载最新一代睿频加速技术,并拥有四核四线程 ...

最新文章

  1. Web Storage API的介绍和使用
  2. 计算机电源外形,电源外观及铭牌解析_HKC电源_机箱电源评测-中关村在线
  3. Windows—JDK安装与环境变量配置
  4. JavaScript获取URL参数
  5. JavaEE中一些非常有价值的东东
  6. 如果关闭一个窗体后激活另一个窗体的事件或方法
  7. OO前三次作业简单总结
  8. Python入门学习笔记(9)
  9. 只十分钟,唾手可得的工作机会就被我搞砸了!
  10. python 文件名以数字开头_python-如何使XML标记以数字开头?
  11. 透视形变(perspective distortion)
  12. HSRP协议详解:配置HSRP实现网关的冗余备份
  13. 微信小程序 this.data与this.setData
  14. python 追加写文件_python怎么追加写入文件
  15. 如何解决:ConnectionRefusedError: [WinError 10061] 由于目标计算机积极拒绝,无法连接。
  16. 互动媒体技术——编程习作集
  17. CSS 弹性盒子布局详解
  18. 虚拟pdn服务器,【转载】EPS中的PDN连接
  19. 陈安之、王顺杰、翟鸿燊这些成功学讲师有些语句确实很发人深省为什么说他们是大忽悠呢?
  20. 暴风云视频平台SDK使用介绍(四)-- 视频播放(Android)

热门文章

  1. 微信支付技术解决方案
  2. 在Spring Framework中@Inject和@Autowired有什么区别? 在什么条件下使用哪一个?
  3. 在request.GET中捕获url参数
  4. 使用GitHub存储库中的更改更新本地存储库
  5. Spring Boot 动手写一个 Start
  6. python基础(1.5-1.7)
  7. 重新建立域计算机账户与域控制器的联系
  8. 运算符 - PHP手册笔记
  9. Hessian RPC示例和基于Http请求的Hessian序列化对象传输
  10. 界面-工作者线程结构之:异步委托调用