人类发展处于不断地进步中,从最初的石器时代到现在的信息时代,下一个即将迎来的会是什么时代呢?www.nainaitea.com

今天和大家分享的主题是:“三维视觉与空间计算,是智能交互时代的基石”。接下来你将听到的是启示今后二十年人工智能发展方向的重要信息。

一、人工智能的出现及发展

人工智能是人类终极愿望和本质诉求的阶段性产物:

它经历了二十世纪五十到七十年代以逻辑主义(符号主义、逻辑推理、定理证明)为核心的第一次浪潮;八十年代到二十世纪末以连接主义(知识工程、专家系统、神经系统)为核心的第二次浪潮;以及从2006年至今,以2006年Hinton提出的深度学习技术和2012年ImageNet竞赛在图像识别领域带来的突破为标志性起点的第三次浪潮,最核心的就是深度学习。

人工智能结合数据对传统算法的大幅提升,已经可以解决具体问题了,产业界呈现出欣欣向荣的发展景象。

回看几千年的文明发展史,信息工具的升级和生产工具一起驱动着人类的本质诉求——进化和文明跃迁。

从原始文明的结绳记事、甲骨文、竹简,到农耕文明的活字印刷,再到工业文明的电话电报,信息文明的互联网与电脑、移动互联网与手机,我们在想智能文明时代的终端信息工具是什么?不妨看看第三次浪潮中的人工智能技术发展。

随着算法和算力的快速发展与数据的指数级累积,2005年左右开始出现以文本和语音为数据的一维智能公司,如Google、百度、科大讯飞等,以及以图片和视频为数据的二维智能公司,如旷视、商汤、云从等。

我们生活在三维空间,期待更多优秀的三维智能企业。

当然,在自动驾驶和机器人行业已出现不少佼佼者,如Waymo、drive.ai、蔚来汽车等,用三维视觉与高精度图服务为汽车和机器人赋能,解放人在通勤和工程作业中的劳动力。

但我们工作和生活中的绝大部分场景,如办公室、商场、景区、展馆等,无法用昂贵笨重的毫米波雷达等设备解决空间计算问题,这就需要用到消费级的三维智能技术。

二、三维视觉与空间计算

1. 三维视觉和空间计算是什么?

三维视觉和空间计算是人工智能领域最重要的分支,旨在通过计算机视觉与计算机图形学及深度学习等相关算法与多种三维特征传感器结合,解决人或机器对三维空间的感知、重建与理解以及与空间的实时相对关系的确定。

三维视觉是智能交互时代的基石,建立了人与物理世界、人与数字世界以及数字世界与物理世界稳定统一的绝对联系。

人类将进入下一个纪元,可以摆脱掉鼠标、键盘与屏幕,直接用最自然的方式与数字化的信息与世界智能交互,整个世界成为人类的鼠标和屏幕。

三维智能时代的技术核心不是凭空产生的,而是多学科交叉融合产生的化学反应,包括:

计算机视觉Computer Vision领域的几何算法、计算机图形学(Computer Graphics)、人工智能(ArtificialIntelligence)中Deep Learning(深度学习)以及神经网络的发展,其他还包含芯片技术、云计算、异构计算的发展等等。

2. 三维视觉和空间计算有什么用?

能做什么?对我们的工作生活有什么样的革命性的影响?

三维视觉与空间计算驱动的智能交互,可以全息传输以进行混合现实远程会议;可以把物理世界的场地和虚拟娱乐与消费场景任意叠加;可以把游戏世界融合到真实世界中来。

如今,在现实场景中,想获取面前商家的数字化信息,还需要打开美团点评进行搜索,GPS定位也非常不精确,但有了悉见大脑加持的三维视觉能力之后,所有的数字化信息可以直接持久化地融合在我们面前的真实场景之中,根本不需要再盯着屏幕看导航或信息。

所有的信息都会以三维模型的形态嵌入到真实世界,并且根据个人喜好个性化显示,实现“我想看到的我就能看到,我看到的就是我想看到的”的理想目标。

商业营销和娱乐互动基于此,也会更加有趣。比如你想买车时,可能一辆以假乱真的玛莎拉蒂立马就开到你面前的马路上,美女模特下车和你互动并展示车的性能参数与炫酷外观内饰。

当你去游览各种名胜古迹时,也不需要请导游讲解。

雅典卫城破损的神庙恢复如初,在雅典娜女神帮助下的希腊人,好像正在设计特洛伊木马;

罗马斗兽场正在上演公元一世纪最受罗马贵族喜爱的残酷格斗,九万余人按身份阶层在整个体育场呐喊,持三叉戟和网的角斗士正准备杀死恳求神发慈悲的失败者……

3. 智能交互时代的三大特征

三维视觉与空间计算驱动的智能交互时代有三大特征:

 物理世界的数字化:

很多人说互联网和移动互联网的下一代是物联网,万物互联。我们通过各种各样的传感器,将我们的工作和生活场景进行量化和数字化。

智能家居就是一个非常典型的场景,像智能台灯、智能开关、智能监控、智能电视、智能路由器、智能空调、智能窗帘等等,我们通过各类传感器,将物理场景进行采集和数字化,同步到云端。

不仅如此,我们还对自身进行量化和数字化,比如我们跑步、走路、睡眠时,都在产生大量的数据,包括心跳、体重等,我们每天都会看这些数字,用来炫耀或优化自己的物理身体。

还有一种逐渐从工业界渗透到我们生活中的非常重要的物理世界数字化手段,统称三维建模。

包括用专业设备进行的超大规模三维重建、中小规模三维重建、以及游戏动画影视行业的CG建模,已经能达到以假乱真的地步。

② 数字世界的物理化:

什么意思呢?就是在数字世界非常庞大的现实下,从网页,Google、百度的索引数据库,到每个企业的业务数据,我们在用什么样的方式跟数字世界打交道、我们如何感知和反馈数字世界。

混合现实的智能化:

人有视觉、听觉、触觉、嗅觉、味觉,人类感知世界的方式,是通过感官获取到生物信号经由大脑的主观诠释,当物理刺激同时对不同感官进行刺激时人就会信以为真,所以我们要让人类感知数字世界,传感器的协同反馈非常重要。

今年上映的现象级电影《头号玩家》,描述了未来的游戏体验综合反馈了三种以上甚至四种五种感知的协同反馈。相信大家看得很过瘾,甚至有很强的代入感。

他们戴着VR头盔可以协同解决视觉和听觉反馈的一致性,所穿的特制服装很关键,当你被敌人攻击时,会在衣服上形成对你物理身体的协同刺激。但这是科幻电影中的想象。

在现实世界,这部分做得还很差。我们现在和数字世界交互、建立物理和数字链接的方式还很简单,用PC和手机。扫福字、扫红包就是很典型的体验,通过图片和平面的扫描,把数字世界的相关信息激活,用手机屏幕显示出来。

由于技术限制,我们从微信、微博、头条,到抖音、快手、爱奇艺,所有跟数字世界打交道的方式都是这五寸左右的小屏幕,所以一个个都成了低头族,进而阻碍了我们跟真实世界的联系,忽略了身边的人和事。

更严重的是,从2016年开始小米走向低谷,标志着智能手机行业经过十年的发展已到达了平台期、存量期。

苹果引领了齐刘海之后,出现了几十款高级复刻品。基于触屏手机交互已没有什么创新空间,苹果最新发布会所有产品的亮点也只是A12仿生芯片和AR。

我们都知道,苹果、微软、谷歌等都在紧锣密鼓地研发消费级AR眼镜。我们认为,能同时对视觉和听觉沉浸式反馈的AR眼镜是手机的下一代交互方式,那我们有什么样的期待?为什么2012年推出的Google Glass没有成功?

这就是混合现实智能化,也是三维视觉和空间计算要解决的问题。

4. 如何实现混合现实智能化?

首先是三维感知:即对三维场景的深度估计或物体表面形状的数字化采样,这里涉及到了多传感器的快速标定、多目视觉和惯导融合、多传感器融合比如雷达、全景相机等,还有基于事件相机的SLAM。

其次是位姿感知:即当你对周围空间进行感知后,要确定你与环境之间的实时动态关系,对相机或物体在三维空间中的位置和朝向的计算进行实时追踪。

也就是我们常说的六自由度的重定位算法、VIO(多目视觉和惯导融合)、SLAM(simultaneouslocalization and mapping,即时定位与地图构建,或并发建图与定位)、Sematic SLAM等等。

接着是三维重建:对三维场景或物体的形状和表观模拟,以及运动估计和动态重建,包括:

地图构建和持久化、地图优化、多地图对齐和融合、通过SLAM进行稀疏3D重建、SFM(Structure From Motion,从运动恢复结构)、结合深度数据的稠密3D重建、深度学习优化的3D重建等等。

最后是三维理解,也是我们的进一步目标。

这就要求做平面语义分割、3D语义分割、动态目标分割与追踪、实时语义内容检索以及对位姿感知的反馈优化等。

解决了这些问题,也就解决了物理世界数字化、数字世界物理化、混合现实智能化的问题。

三、悉见在三维视觉方面做了什么?

从2012年开始深度学习大范围推广,2015年,AR、机器人、无人驾驶开始引起热潮,悉见也在这个时间成立。

之后微软的混合现实眼镜HoloLens上市、苹果和谷歌发布AR软件平台ARKit和ARCore,再之后手机开始支持正面的3D深度摄像头,不久后置深度摄像头也会出现。

悉见AR眼镜第一代在2017年底量产出货。2018年国外出现三维场景实时重建的软件产品,悉见也发布相应的混合现实大脑平台xarc.ai,今年10月份悉见和北大成立了联合智能技术研究中心,重点推进三维视觉的产学研(产业界、学术界、研究界)进展与落地。

如果用一个词来总结三维视觉的发展趋势,就是“融合”,包括:

传统几何算法与深度学习方法的融合、多传感器的融合、软件云服务与硬件的融合(包括算法的硬件化/芯片化)、以及与具体应用的结合,比如AR/VR/MR、AGV、自动驾驶、机器人等等。

在这个过程中,我们总结出了一套系统架构,可以高效解决各行业对三维视觉和空间计算的需求。

从上到下可以分为五层,分别是物理层(PhysicalLayer)、数字层(Digital Layer)、引擎层(EngineLayer)、终端层(Device Layer)、应用层(ApplicationLayer)。

物理层就是我们的真实世界。数字层是对真实世界的数字化采集和重建。

在数字层,我们提供高精地图采集专业设备,可以做到厘米级到毫米级的精度、每天十万平米的高效率,而且支持端到端的定位网络生成和上千种物体的智能识别。

引擎层是三维混合现实数据存储、检索、渲染和交互的驱动平台。

在引擎层,我们提供了整套的自动化建图工具、混合现实场景编辑工具,以及适配多种设备的终端SDK。

终端层是用户与数字层交互的入口设备和计算平台。

在终端层,我们已经研发和量产了多款AR和AI眼镜,包括去年量产的首款45°视场角、166g最轻亮双目AR眼镜一体机、今年量产的第二代强性能AI眼镜用NPU进行人脸识别、车牌识别、空间定位、以及即将发布的代号M消费级AI眼镜。

应用层是跑在混合现实系统上的所有应用,就像手机里安装的各种各样的APP。

同时悉见自主研发视觉加速芯片XVPU,也对我们各代硬件设备的智能化和小型化,起到了关键的作用。

目前我们市场团队在第一线接收到了多个行业万亿级三维视觉需求的快速增长,如同PC时代和智能手机时代,各行业及消费级应用生态会随着基础技术平台和工具的完善快速丰富起来,一起迎接三维智能时代的到来。

文章为讲者独立观点,不代表笔记侠立场。

内容来源:2018年10月24日,悉见科技创始人&CEO刘洋受邀出席《2018中国虚拟现实大会》,并发表题为《三维理解与重建是智能交互时代的基石》的精彩分享。在演讲中,刘洋对人工智能领域的未来作出了判断和预测,并首度完整阐述了悉见科技混合现实大脑xarc.ai的系统架构及商业价值。笔记侠作为合作方,经主办方与讲者审阅授权发布。

分享者:刘洋,悉见科技创始人&CEO

来源:https://mp.weixin.qq.com/s/I54hcrs5Vhi59LzVva7-hA

题图来自Unsplash,基于 CC0 协议

人工智能即将带领我们进入下一个时代?相关推荐

  1. 联想,寻找下一个时代的联想

    李根 发自 凹非寺  量子位 报道 | 公众号 QbitAI 很多人早已忘记,联想最初的名字叫"中国科学院计算技术研究所新技术发展公司". 3月29日,杨元庆在中科院计算机所谈起, ...

  2. 云计算的下一个时代——“容器时代”

    内容来源:2017年4月21日,京东云产品部总经理郭理靖在"K8S技术社区"进行<云计算的下一个时代--"容器时代">演讲分享.IT 大咖说(Id ...

  3. 下一个时代的黑产攻防,可能没有人类什么事情了

    本文来源于:半佛仙人(ID:banfoSB) PS:公众号推文时间工作日早晨8点50分,周末下午3点30分,不见不散哈! 1 互联网时代,我们在迎来前所未有的方便时,也在面临着无所不在的威胁. 那些为 ...

  4. 云通讯的下一个时代,需要的不只是AI

    出品 | 子弹财经 作者 | 龙曦 艾瑞咨询报告指出,随着云计算的深入应用,中国企业通讯服务已开启云化和智能化转型,最多两到三年,万亿级企业云通讯市场规模将有望实现. 产业互联网的爆发是井喷级的,但这 ...

  5. 巴旦木即将成为农业的下一个“风口”河南巴旦木生态农业:值得期待

    河南巴旦木生态农业:农业的下一个"风口"巴旦木树苗种植 农业下一个"风口"是什么?巴旦木种植户感叹道:终于熬过了冬天. "民以食为天",从古 ...

  6. 座舱交互的下一个时代

    为了满足座舱信息娱乐的更高性能要求,几乎所有的一线品牌都在准备"换芯".去年开始,不少车型开始推动传统的分布式座舱仪表和中控电子架构进入域控制器时代,高通成为大赢家. 今年6月,特 ...

  7. 重磅:字节跳动张一鸣90亿布局元宇宙,下一个时代已经来临

    8月29日,据多家媒体报道,VR(虚拟现实)创业公司Pico发布全员信,证实了该公司被字节跳动收购一事. 内部信中称,Pico将并入字节跳动的VR相关业务,整合字节跳动的内容资源和技术能力,并将在产品 ...

  8. 205页PPT,看5G+AI引领的下一个时代!

    来源:国泰君安证券.暴点 摘要:为大家分享一份国泰君安证券关于"电子行业2019年春季投资策略,5G+AI系列研究"报告,详看哪些产业将迎来黄金期. 预计5G换机高峰期将出现在20 ...

  9. 商汤科技总裁张文谈人工智能: 未来10年到20年会有巨大爆发 下一个井喷是AI+教育

    https://m.thecover.cn/news_details.html?from=web&id=2087288 2019-06-11 19:31 封面新闻记者 秦怡 杨晨 " ...

最新文章

  1. Linux多台服务器共用密钥ssh自动登陆
  2. 自学python可以找到好的工作吗-学好python能找到好工作吗?
  3. C语言详解 - 数组
  4. C#类型反射、晚期绑定、特性编程的使用背景与分析
  5. Dubbo负载均衡原理
  6. Python面向对象、魔法方法
  7. c语言调用的viod函数不执行,void 函数 调用问题
  8. 电脑文件太多找不到?试试这个免费搜索软件
  9. 【机器学习-西瓜书】二、性能度量:召回率;P-R曲线;F1值;ROC;AUC
  10. Ext.core.DomHelper 可以透明地操作HTML或者DOM
  11. Android Studio第三十五期 - 定时器弱引用+Service的写法
  12. 几种常见的微服务架构方案简述——ZeroC IceGrid、Spring Cloud、基于消息队列
  13. JDBC06 其他操作及批处理Batch
  14. 头歌平台(EduCoder)—— 数据挖掘算法原理与实践:k-近邻
  15. 浪潮服务器pxe安装操作系统,规划 PXE 启动的操作系统部署
  16. 如何去管理Java项目
  17. 各类抽奖活动开发总结及分析
  18. 【ES 笔记】 ElasticSearch 基本的查询语句介绍
  19. 串联四足机器人基础知识
  20. 推荐系统学习笔记之三 LFM (Latent Factor Model) 隐因子模型 + SVD (singular value decomposition) 奇异值分解

热门文章

  1. 独立游戏开发者的崛起
  2. 三星n7100Android5.1,当三星Gear S运行安卓5.1:不可思议
  3. 给日期选择器(ant-design-DatePicker )时间范围限制
  4. 推荐一宽项目管理软件(conceptdraw)
  5. boost I 字符串与文本处理
  6. java中的pack()
  7. 大数据发现了厕所越干净城市越发达,但永远无法解释这背后的原因
  8. jQuery insertBefore( ) 方法
  9. 【转】国内人贩子抢孩子新招,妈妈们必看,请告诉身边的人
  10. CF 997C Sky Full of Stars