当下计算机视觉技术无疑是AI浪潮中最火热的议题之一。视觉技术的渗透,既可以对传统商业进行改造使之看到新的商业机会,还可以创造全新的商业需求和市场。无论在电商、安防、娱乐,还是在工业、医疗、自动驾驶领域,计算机视觉技术都扮演着越发重要的角色。

元旦假期即将来临,我们精心准备了这本《阿里巴巴机器智能计算机视觉技术精选》,收录了顶级会议 CVPR 2018 阿里论文,送给计划在假期“充电”的同学们,也希望能和更多学术界、工业界同仁一起探讨交流。

下载地址:https://yq.aliyun.com/download/3237?utm_content=g_1000033518

在这本干货精选集中,我们收录了多篇具有代表性的 CVPR 2018 论文。比如,拍立淘利用图像搜索和识别技术,帮助用户在移动端通过拍照就能找到相似商品;线下新零售领域,阿里用空间定位、货架商品SKU识别技术推动“人货场”数字化,并做进一步的商业分析;城市大脑项目中,阿里研发了大规模视频高效处理技术,帮助城市交通事故识别、人流轨迹判断、交通数据样本汇总。

哪些核心技术值得一看?

Spotlight论文《基于时间尺度选择的在线行为预测》讨论了视频中行为预测的一个非常重要的问题:怎么去选择一个好的时间维度窗口?论文提出了包含多个子网络的尺度选择网,比如包括时间序列建模的一维卷积子网络、尺度回归子网络以及行为预测子网络。在两个公开数据集上,尺度选择网的实验结果优于其他方法,并且准确率也接近使用Ground Truth尺度的结果。

Spotlight论文《基于语境对比特征和门控多尺度融合的场景分割》致力于场景分割中的两大问题:场景图片中像素形式的多样化(例如:显著或者不显著、前景或者背景)和场景图片中物体大小的多样性。文章针对这两个问题分别提出了语境对比局部特征和门控多尺度融合方法。本文提出的模型在Pascal Context, SUN-RGBD和COCO Stuff 三个场景分割数据集上验证了性能,取得了目前最高的场景分割性能。

对于跨模态检索而言,如何学到合适的特征表达非常关键。Spotlight论文《所见所想所找-基于生成模型的跨模态检索》提出了一种基于生成模型的跨模态检索方法,该方法可以学习跨模态数据的高层次特征相似性,以及目标模态上的局部相似性。本文通过大量的实验证明了所提出的方法可以准确地匹配图像和文本,并且在MSCOCO以及Flickr30K的数据集上都取得了state-of-the-art的效果。

在论文《整体还是局部?应用Localized GAN进行图像内容编辑、半监督训练和解决mode collapse问题》中,作者建立了GAN和半监督机器学习中Laplace-Beltrami算子的联系,在用少量标注样本训练深度学习模型上取得了优异的性能。同时论文还展示了用Localized GAN (LGAN)对给定图像在局部坐标系下进行编辑修改,从而获得具有不同角度、姿态和风格的新图像;以及如何从流型切向量独立性的角度来解释和解决GAN的mode collapse问题。

论文《处理多种退化类型的卷积超分辨率》针对现有基于CNN的单图超分(SISR)算法不能扩展到用单一模型解决多种不同的图像退化类型的问题,提出了一种维度拉伸策略,使得单个卷积超分辨率网络能够将SISR退化过程的两个关键因素(即模糊核和噪声水平)作为网络输入来解决这个问题。实验结果表明提出的卷积超分辨率网络可以快速、有效的处理多种图像退化类型,为SISR实际应用提供了一种高效、可扩展的解决方案。

论文《于尺度空间变换的本征图像分解》将把图像分解为其本征的反射图像和光照图像看作是一个图像到图像的转换问题,并且将输入和输出在尺度空间进行分解。通过将输出图像(反射图像和光照图像)扩展到它们的拉普拉斯金字塔的各个成分,论文提出了一种多通道网络结构,可以在每个通道内并行地学习到一个图像到图像转换函数,这个函数通过一个具有跳过连接的卷积神经网络来表示。在MPI-Sintel数据集和MIT Intrinsic Images数据集上结果表明,新提出的模型在比之前最先进的技术上有了明显的进步。

大多数现有的零样本学习(Zero-Shot Learning,ZSL)方法都存在强偏问题。在论文《基于直推式无偏嵌入的零样本学习》中,作者提出了一个简单而有效的方法,称为准完全监督学习(QFSL),来缓解此问题。假定标记的源图像和未标记的目标图像都可用于训练。在语义嵌入空间中,被标记的源图像被映射到由源类别指定的若干个嵌入点,并且未标记的目标图像被强制映射到由目标类别指定的其他点。在AwA2,CUB和SUN数据集上进行的实验表明,文章的方法在遵循广义ZSL设置的情况下比现有技术的方法优越。

更为具体的实践信息,大家可以通过此本电子书,进一步了解。

好的视觉技术不仅需要好的方法指引,还需要在实际的场景中形成数据闭环和不断打磨。未来的计算机视觉技术一定是理论探索和数据实践的共同推进。希望这本论文合集能抛砖引玉,给学术界和工业界带来一些输入,共同推进计算机视觉技术的发展。

原文链接
本文为云栖社区原创内容,未经允许不得转载。

首次公开!《阿里计算机视觉技术精选》揭秘前沿落地案例相关推荐

  1. Redis+Nginx+ 设计模式 +Spring 全家桶 +Dubbo 阿里 P8 技术精选文档

    01.Redis 技术好文精选整理(共 19 篇)PDF Redis+Tomcat+Nginx 集群实现 Session 共享 Redis 到底是怎么实现「附近的人」这个功能的呢 ? Redis 持久 ...

  2. Redis+Nginx+设计模式+Spring全家桶+Dubbo阿里P8技术精选文档

    最近花了很长的时间去搜罗Java核心技术好文,我把每个Java核心技术的优选文章都整理成了一个又一个的文档.昨天也是终于全部整理好了,今天就把这些东西分享给老铁们,也能为老铁们省去不少麻烦,想学什么技 ...

  3. Redis+分布式+设计模式+Spring全家桶+Dubbo阿里P8技术精选文档

    最近花了很长的时间去搜罗Java核心技术好文,我把每个Java核心技术的优选文章都整理成了一个又一个的文档.昨天也是终于全部整理好了,今天就把这些东西分享给老铁们,也能为老铁们省去不少麻烦,想学什么技 ...

  4. Redis+Nginx+设计模式+Spring全家桶+Dubbo+阿里P7技术精选文档

    最近有一些粉丝私聊我,有没有技术文档,然后我这边经过一段时间收集,终于整理好了这套技术文档,里面包含了Redis.Nginx.设计模式.spring全家桶.Dubbo等关于Java架构方面的资料,一并 ...

  5. 阿里云技术天团空降 CSDN 独家在线峰会,揭秘核心竞争力

    CSDN 联合阿里云共同举办了"阿里云核心竞争力"系列在线峰会,在 2020 年成功举办两期之后,2021 年,CSDN 系列在线峰会继续启航."阿里云技术竞争力&quo ...

  6. 9月15日云栖精选夜读:BCG与阿里研究院等联合揭秘中国互联网经济:成功的关键是什么?

    原文地址 随着中国互联网近期一系列具有里程碑意义的发展,中国和美国已经成为驱动全球互联网发展的双引擎,然而中美互联网市场在很多方面又迥然不同.洞察中国互联网的特色及其背后的深层次原因,对互联网企业未来 ...

  7. 阿里技术分享:深度揭秘阿里数据库技术方案的10年变迁史

    本文原题"阿里数据库十年变迁,那些你不知道的二三事",来自阿里巴巴官方技术公号的分享. 1.引言 第十个双11即将来临之际,阿里技术推出<十年牧码记>系列,邀请参与历年 ...

  8. 【将门创投】如何让飘在半空的计算机视觉技术与需求落地?

    活动信息 ▼ 主题:如何让飘在半空的计算机视觉技术与需求落地?   时间:7月20日(周三)晚8点-9点 地点:将门计算机视觉微信群 嘉宾介绍 ▼ 杨安国 DeepSee CEO 曾就职于国内知名大型 ...

  9. AIBlockChain:“知名博主独家讲授”人工智能创新应用竞赛【精选实战作品】之《基于计算机视觉、自然语言处理和区块链技术的乘客智能报警系统》案例的界面简介、功能介绍分享之计算机视觉技术

    AI&BlockChain:"知名博主独家讲授"人工智能创新应用竞赛[精选实战作品]之<基于计算机视觉.自然语言处理和区块链技术的乘客智能报警系统>案例的界面简 ...

最新文章

  1. 每天一个linux命令(8):cp 命令
  2. hdu4821 字符串hash(有多少(M*L长的,M个不相同)子串))
  3. 基于ASP.NET Core SignalR的流式传输
  4. CoreJava 笔记总结-第三章 Java的基本程序设计结构
  5. 最长回文Manacher
  6. 美团搜索-搜索引擎关键字智能提示的一种实现[转]
  7. DataGridView 中合并单元格
  8. xml mysql配置详解_mapper.xml配置文件详解
  9. P1421 小玉买文具【入门题】
  10. android清理缓存动画、天气APP、购物下单选择器、阅读APP、饿了么demo等源码
  11. 正则匹配身份证和邮箱
  12. Parallels中使用加密狗读取文件出现错误
  13. git 拉取某个分支到本地
  14. Android聊天软件开发(基于网易云IM即时通讯)——发送图片消息(五)
  15. java 调用关机命令_java调用关机命令
  16. 深搜回溯与不回溯的区别
  17. props写法_详解Vue内部怎样处理props选项的多种写法
  18. javaFX裁剪视频exe
  19. 汉字Collection
  20. PreSonus Studio One 5 Professional v5.5.0 WiN-MAC 音乐制作宿主软件

热门文章

  1. 抗侧力构件弹性位移如何计算_说一说现在很火的装配式建筑怎么计算?
  2. 磁卡门锁怎么配卡_样式多的铜工艺品怎么设计请查看_江西南昌皇巢|铜门||别墅铜门|...
  3. nginx文件服务器密码登录,风的方向
  4. 车站信号计算机联锁系统英语,车站信号计算机联锁-复习题
  5. 熟悉html css,编写HTML和CSS的前端开发中不一定熟悉JavaScript
  6. mysql随机选择记录表_Mysql表中取随机记录
  7. 萤火虫小程序_9.9元起!萤火虫中秋文化节来了!特价门票限量秒杀,手慢无!...
  8. 因为瘟疫,英国诞生了一个又一个的科学家
  9. 她被“誉为”中科院最美女院士,52岁依然貌美如花?气质不输女星
  10. 圆周率π的计算历程及各种脑洞大开的估计方法