视觉实验室

致力于图像、视频的感知、理解、生成、处理等技术研发与应用，以及三维场景、物体的重建、生成技术的探索和应用。构建以图像视频为媒介的产品和应用，在互动娱乐、数智教育、线下智能等多个方向创造商业新机会，广泛应用于新零售、新媒体、新制造等领域。

研究方向

视觉理解&互动视觉

研发基于视觉（图像/视频）的分类、目标检测跟踪、分割、特征表示学习、关键点提取、人体姿态估计、手势识别、图像描述生成、大规模分布式训练引擎等基础技术，解决电商，通用视觉应用场景下，商品、人体的理解与互动等问题。

视频理解与挖掘

研发视频标签、视频搜索、视频目标检测、视频生成等基础技术，解决在海量视频中进行高效稳定的视频审核、搜索和编辑等问题。

三维视觉

研发三维建模、三维感知、三维理解和三维交互等基础技术，解决端上建模、测量问题和提升AR/VR体验。

文字识别

研发图像视频中的文字检测、文字识别与结构理解等核心技术，解决在扫描、实拍、多语言、混贴等复杂场景下的文字识别与信息抽取。

图文理解

研发图文互搜、图文共搜、价格预估等跨媒体内容理解的核心技术，解决跨媒体内容理解与分析等问题。

线下智能

研究端上和边缘侧的各种视觉处理和结构化方案，包括目标检测，目标分割，多目标跟踪，目标识别（包含行人/机动车重识别，人脸识别等），目标属性提取，行为动作分析等算法，面向遥感影像和X光影像的数据处理，变化检测，地物分类等，以及面向低功耗高效率的深度网络的优化方法，例如模型压缩，推理加速，网络结构搜索等。

底层视觉

研发low-level vision涉及的各种视觉技术，包括图像/视频的修复、增强、去噪等，为后面的视觉分析和理解进行预处理。此外，还研发图像的编辑、生成等技术，为用户更好的体验、互动进行服务。

产品及应用

拍立淘和图像搜索云产品

研发了业界领先的图像搜索与识别技术，并应用于多种场景。每天有超过1700万人通过淘宝和天猫使用拍立淘的以图搜图功能。基于阿里云平台，研发了图像搜索云产品，为具有海量图像搜索需求的客户（如电商、相册、图库类网站）提供完整的以图搜图解决方案。目前已经有若干海外和国内用户，比如澳洲和新西兰领先的时尚和运动零售商THE ICONIC。

了解更多
三维视觉端云产品

通过三维视觉和计算机图形学技术，为行业提供数字化和智能化的解决方案，和生态伙伴共建云+端的技术产品。目前在鞋履产业，通过高效精确的三维扫描和搜索匹配算法，实现精准鞋款推荐、精准营销和精准制造。在房产市场，提供低成本，使用方便、自动化效率高，纹理真实的三维室内、室外场景重建和全景导览功能。在电商平台上，通过AR/VR技术提供给消费者即试即买的沉浸式购物体验，提升销售效率和成交率。

了解更多
虚拟人

通过整合研发图形图像语音技术，目前拥有2D仿真人，3D虚拟人技术产品，支持淘宝直播虚拟主播，虚拟讲师等业务场景。技术覆盖虚拟人生成，驱动，交互领域。在高精度人脸人体重建，卡通捏脸（photo2avatar），真人复刻（video2avatar），文本语音驱动（speech2action），虚拟人交互对话等方向有业界领先的技术积累。赋能娱乐交互，智能教育，新零售，AR/VR/XR等行业。
多媒体AI解决方案

通过多媒体音视频数据中的结构化、人脸识别、音视频指纹、内容生成、智能审核，多模态搜索等媒体AI技术，为数字媒体行业提供版权保护、媒体编目、媒体编辑、媒体审核、多模态搜索等功能，有效的提升数字媒体行业能效并节省成本。目前，已与央视、人民日报、新华社等国内知名数字媒体企业建立合作。
Analytical Insight of Earth (AI EARTH)

通过综合运用计算机视觉分析技术，实现多源对地观测数据的智能解译，提取地表覆盖现状和动态变化信息，改变传统数据处理效率低、精度差等弊端，为自然资源监管、水利河道保护、生态环境监测、农业估产和应急防灾减灾等多个领域提供高效解决方案。

研究团队

徐盈辉达摩院视觉智能实验室负责人

日本国立丰桥技术科学大学计算机科学博士，曾任理光日本中央研究所研究员，阿里搜索事业部搜索排序和基础算法的负责人，菜鸟人工智能部负责人。理光集团Minori award 获得者，05年日本自然语言学会年度最佳论文，sigir17最佳论文提名，阿里巴巴电商平台个性化搜索体系开创者之一。研究领域涉及，信息检索，机器学习，机器视觉，自然语言处理等。现任中国中文信息处理学会理事，达摩院内机器智能部机器视觉实验室负责人。

ZELNIK, Lihi达摩院以色列实验室负责人

曾任以色列理工学院电气工程系的副教授，纽约康奈尔大学的客座教授。拥有魏茨曼科学研究所计算机科学博士。一直致力于计算机视觉的研究。曾任CVPR'16的项目主席，TPAMI的副主编，多次担任CVPR，ECCV的区域主席，并担任ACCV'18和CVPR'19的奖项委员会成员。在2021/22年，她将担任CVPR'21和ECCV'22的主席。

Itamar Friedman资深技术专家

拥有以色列理工学院电子工程学院的计算机视觉和机器学习硕士学位。研究领域是基于深度学习的视频和图像分析。他曾是Visualead的首席技术官，在机器人和网络开发领域曾连续创业。曾是Microsoft Accelerator TLV的导师，指导以色列领先的医疗和无人机领域的AI创业公司，拥有多项专利。

潘攀达摩院视觉智能实验室资深算法专家

拥有伊利诺伊大学芝加哥分校博士学位。负责电商领域的视觉技术研发。拍立淘以图搜图的创始人之一，研究领域包括深度学习、视觉搜索与识别和三维视觉等。曾先后在三菱美国研究院和富士通北京研发中心从事视觉技术工作。已发表20余篇论文，拥有10余授权专利。

刘铸达摩院视觉智能实验室资深技术专家

拥有纽约大学博士，研究领域包括视频内容理解和分析，三维视觉，机器学习。曾任AT&T科研实验室主任科学家，哥伦比亚大学和纽约大学的客座教授。拥有170多项美国专利，发表70余篇论文。曾获AT&T科技奖章。IEEE高级会员，IEEE TMM和SPL副主编。

李昊达摩院视觉实验室资深算法专家

拥有中科院博士学位，负责实景视觉理解技术研发，涉及遥感影像智能解译、X光物流目标识别、人脸打卡、新零售、智慧园区等，相关技术包括深度学习模型压缩，人脸识别，reID，图像搜索等。发表文章20余篇，拥有20余项授权专利。

王永攀达摩院视觉实验室资深算法专家

拥有浙江大学硕士学位，负责OCR方向，技术覆盖图文检测、文字识别、结构理解、端OCR、视频OCR等方向，构建一套完整的泛OCR技术体系，发表多篇论文和专利，主办竞赛，在OCR方向上享有影响力。负责读光云产品，该产品在集团管控、广告等和云上金融、海关等场景中应用广泛，同时，致力于技术公益项目"视觉无障碍-听图购"和"古籍识别-文源"

学术成果

论文

L. Cheng, X. Zhou, L. Zhao, D. Li, H. Shang, Y. Zheng, P. Pan, Y. Xu：Weakly Supervised Learning with Side Information for Noisy Labeled Images. ECCV 2020.
L. Song, P. Pan, K. Zhao, H. Yang, Y. Chen, Y. Zhang, Y. Xu, R. Jin: Large-Scale Training System for 100-Million Classification at Alibaba. KDD 2020.
X. Zhou, P. Pan, Y. Zheng, Y. Xu, R. Jin: Large scale long-tailed product recognition system at Alibaba. CIKM 2020.
J. Dong, Z. Cao, T. Zhang, J. Ye, S. Wang, F. Feng, L. Zhao, X. Liu, L. Song, L. Peng, Y. Guo, X. Jiang, L. Tang, Y. Du, Y. Zhang, P. Pan, Y. Xie: EFLOPS: Algorithm and System Co-Design for a High Performance Distributed Training Platform. HPCA 2020.
Q. Qian, L. Chen, H. Li, R Jin. DR Loss: Improving Object Detection by Distributional Ranking. CVPR 2020.
L. Han, P. Wang, Z. Yin, F. Wang, H. Li. Exploiting Better Feature Aggregation for Video Object Detection. ACMMM 2020.

竞赛

2020年，获ECCV VIPriors Semantic Segmentation challenge 第一名
2020年，获ECCV Tracking Any Objects Challenge 第一名
2020年，获ECCV Visual Domain Adaption Challenge 第一名
2020年，获ECCV lvis竞赛第二名
2019年，获LPIRC分类任务第一名
2019年，获CVPR/WebVision超大规模分类挑战赛: 基于网络数据学习的视觉理解第一名
2019年，获ICCV/COCO 检测分割挑战赛第一名
2020年，获CVPR/DAVIS 视频目标分割挑战赛第一名
2020年，获CVPR/iNaturalist: FGVC细粒度分类挑战赛第二名
2020年，获CVPR/BMTT MOT挑战赛:多目标跟踪和分割第二名
2020年，获CVPR Activitynet: Temporal Action Localization 第一名
2020年，获CVPR HACS Temporal Action Localization 第一名
2019年，获ICCV Light Weight Face Recognition Challange 第三名
2018 KITTI囊括三项道路场景分割任务第一。
2017ACM多媒体大会，大规模视频分类比赛（LSVC）冠军。

一、视觉生产简介与理解

（一）定义

就视觉而言一般来说有两大类：一类是视觉理解，比如检测、分割等；另外一类

是视觉生产，也可以理解为怎么去产生视觉，指通过一个 / 一系列视觉过程，产出新

的视觉表达。如下图所示，有两点需要注意，一是这里的视觉表达指的是人或机器能

够感知的图像视频，而不是标签或特征，二是产出新的视觉表达，和输入是不一样的

视觉表达。在过去，图中所示的过程大多数由人来完成，比如设计师、美工等用 PS

等工具完成，现在，我们希望通过技术能够实现这个过程。

（二）分类

如下图所示，视觉生产主要包括生成、拓展、摘要、升维，另外还有增强 / 变

换、插入 / 合成、擦除等。达摩院在该领域已经投入了很多人力和精力，也形成了一

些产品，比如鹿班、画蝶、视觉智能开放平台等。6　　>　视觉生产技术探索和应用

（三）通用基础框架

视觉生产有自己基本的通用框架，如下图所示。可能在细节上有细微不同，

但是一般来讲其逻辑是类似的，包括请求（Request）、分发（Dispatch）、服务

（Service）和响应（Response）四大部分。视觉生产技术探索和应用　<　 7

（四）五个关键维度

如下图所示，要保证视觉生产有一个好的结果或者说可用的结果，其至少应满

足可看、合理、多样、可控、可用五个维度，只有这样，才能在工业界产生真正的价

值，而不仅仅是一个停留于理论的技术。

二、精细理解——寻微入里

如果想生产一个视觉，首先我们要理解输入的视觉，也就是需要精细的理解视

觉。“理解”其实包括如下几个过程：

●

识别：知道是什么，比如人的识别、物的识别；

●

检测：识别 + 知道在哪，比如缺陷检测、多目标检测；

●

分割：识别 + 检测 + 知道每一个像素是什么。

其中，视觉分割是生产的必要前置步骤，也是学术界和工业界的一个热点，同时

也是难点，因为进行分割时往往有复杂的背景和各种遮挡关系，或者在分割时对其要

求非常高，比如发丝级、镂空等，另外还可能面临边缘发色、透明材质、多目标 / 多

尺度进行分割等问题。实际上，分割时遇到的这些难题归根到底是标注成本高、数据

严重不足的问题，更进一步，即使标注出来了，但是想要精细得将其分割出来，成本8　　>　视觉生产技术探索和应用

是成倍增加的。

阿里云高校计划，陪伴两千多所高校在校生云上实践、云上成长。在这里你可以领用免费的cpu资源，还可以参加免费训练营，实践提高：https://developer.aliyun.com/adc/student/

阿里云达摩院视觉AI介绍相关推荐

阿里云趣味视觉AI训练营－达摩院视觉AI介绍
平台概述使命:让天下没有难用的视觉AI 目标:聚合阿里内外视觉能力,打造以公共云API能力为内核的视觉开放平台,提供统一的产品体验.丰富案例和工具套件,让开发者和业务伙伴省心.安心的继承使用,构建A ...
达摩院视觉AI训练营-搭建身份证识别系统-学习笔记
搭建身份证识别系统目录一.成为开发者二.能力调试三.能力开通四.创建AccessKey 五.启动开发参考案例总结一.成为开发者请您使用阿里云账号登录阿里云视觉智能开放平台.如还未持有阿 ...
达摩院视觉AI训练营-视觉AI技术应用探索-学习笔记
视觉生产技术目录一.视觉生产定义定义: 分类: 通用基础框架五个关键维度二.精细理解-寻微入里分割抠图-难点: 分割抠图-解题思路: 分割抠图-模型框架: 分割抠图-人像抠图拓展: 分割抠图 ...
阿里云高校计划视觉AI五天训练营教程学习笔记
阿里云高校计划视觉AI五天训练营教程学习笔记 Day 1 Topic: 视觉生产技术定义:通过(一个或者一系列)视觉过程,产出 **新的** 视觉表达. 分类通用基础框架关键维度精细理解--举 ...
达摩院视觉AI课-身份证识别
功能描述身份证识别可以识别二代身份证关键字段内容,关键字段包括:姓名.性别.民族.身份证号.出生日期.地址信息.有效起始时间.签发机关,同时可输出身份证区域位置和人脸位置信息. 应用场景远程注册: ...
达摩院视觉ai图像识别项目
视觉生产技术这是2020.8.24开始的视觉AI训练营第一天的打卡内容,这篇学习笔记是对视频内容的复制.通过今天的学习,我重新认识了AI在图像领域(或者说视觉领域)的应用.之前的我只是学习深度学习, ...
Python动物图像分割API简单调用实例演示，阿里达摩院视觉智能开放平台使用步骤
阿里云视觉智能开放平台 - 动物分割效果图演示平台入口创建获取密钥本地图片转 URL 与密钥测试代码调用演示语义分割知识拓展阿里云达摩院智能视觉开放平台效果图演示调用本地图片处理后可 ...
阿里达摩院做 AI 这两年
整理 | Jane 出品 | AI科技大本营(ID:rgznai100) 2017 年 10 月的杭州云栖大会上,阿里巴巴正式宣布成立达摩院,未来三年将投入将超过 1000 亿人民币用于基础科学和颠覆 ...
“抗击”新型肺炎！阿里达摩院研发AI算法，半小时完成疑似病例基因分析
利用技术辅助抗击疫情,阿里巴巴.百度等科技巨头各显身手. 此前,AI科技大本营采访报道了阿里达摩院<数十名工程师作战5天,阿里达摩院连夜研发智能疫情机器人>一文,后者为了解决客服人力不足的 ...
阿里达摩院再造AI抗疫技术：20秒判读CT影像，识别准确率达96%
2020-02-16 13:22:25 允中发自凹非寺量子位报道 | 公众号 QbitAI 又是达摩院. 阿里方面最新消息,达摩院联合阿里云针对新冠肺炎临床诊断研发了一套全新AI诊断技术: ...

阿里云达摩院视觉AI介绍

视觉实验室

阿里云达摩院视觉AI介绍相关推荐

最新文章

热门文章