人工智能即将带领我们进入下一个时代？

人类发展处于不断地进步中，从最初的石器时代到现在的信息时代，下一个即将迎来的会是什么时代呢？www.nainaitea.com

今天和大家分享的主题是：“三维视觉与空间计算，是智能交互时代的基石”。接下来你将听到的是启示今后二十年人工智能发展方向的重要信息。

一、人工智能的出现及发展

人工智能是人类终极愿望和本质诉求的阶段性产物：

它经历了二十世纪五十到七十年代以逻辑主义（符号主义、逻辑推理、定理证明）为核心的第一次浪潮；八十年代到二十世纪末以连接主义（知识工程、专家系统、神经系统）为核心的第二次浪潮；以及从2006年至今，以2006年Hinton提出的深度学习技术和2012年ImageNet竞赛在图像识别领域带来的突破为标志性起点的第三次浪潮，最核心的就是深度学习。

人工智能结合数据对传统算法的大幅提升，已经可以解决具体问题了，产业界呈现出欣欣向荣的发展景象。

回看几千年的文明发展史，信息工具的升级和生产工具一起驱动着人类的本质诉求——进化和文明跃迁。

从原始文明的结绳记事、甲骨文、竹简，到农耕文明的活字印刷，再到工业文明的电话电报，信息文明的互联网与电脑、移动互联网与手机，我们在想智能文明时代的终端信息工具是什么？不妨看看第三次浪潮中的人工智能技术发展。

随着算法和算力的快速发展与数据的指数级累积，2005年左右开始出现以文本和语音为数据的一维智能公司，如Google、百度、科大讯飞等，以及以图片和视频为数据的二维智能公司，如旷视、商汤、云从等。

我们生活在三维空间，期待更多优秀的三维智能企业。

当然，在自动驾驶和机器人行业已出现不少佼佼者，如Waymo、drive.ai、蔚来汽车等，用三维视觉与高精度图服务为汽车和机器人赋能，解放人在通勤和工程作业中的劳动力。

但我们工作和生活中的绝大部分场景，如办公室、商场、景区、展馆等，无法用昂贵笨重的毫米波雷达等设备解决空间计算问题，这就需要用到消费级的三维智能技术。

二、三维视觉与空间计算

1. 三维视觉和空间计算是什么？

三维视觉和空间计算是人工智能领域最重要的分支，旨在通过计算机视觉与计算机图形学及深度学习等相关算法与多种三维特征传感器结合，解决人或机器对三维空间的感知、重建与理解以及与空间的实时相对关系的确定。

三维视觉是智能交互时代的基石，建立了人与物理世界、人与数字世界以及数字世界与物理世界稳定统一的绝对联系。

人类将进入下一个纪元，可以摆脱掉鼠标、键盘与屏幕，直接用最自然的方式与数字化的信息与世界智能交互，整个世界成为人类的鼠标和屏幕。

三维智能时代的技术核心不是凭空产生的，而是多学科交叉融合产生的化学反应，包括：

计算机视觉Computer Vision领域的几何算法、计算机图形学（Computer Graphics）、人工智能（ArtificialIntelligence）中Deep Learning（深度学习）以及神经网络的发展，其他还包含芯片技术、云计算、异构计算的发展等等。

2. 三维视觉和空间计算有什么用？

能做什么？对我们的工作生活有什么样的革命性的影响？

三维视觉与空间计算驱动的智能交互，可以全息传输以进行混合现实远程会议；可以把物理世界的场地和虚拟娱乐与消费场景任意叠加；可以把游戏世界融合到真实世界中来。

如今，在现实场景中，想获取面前商家的数字化信息，还需要打开美团点评进行搜索，GPS定位也非常不精确，但有了悉见大脑加持的三维视觉能力之后，所有的数字化信息可以直接持久化地融合在我们面前的真实场景之中，根本不需要再盯着屏幕看导航或信息。

所有的信息都会以三维模型的形态嵌入到真实世界，并且根据个人喜好个性化显示，实现“我想看到的我就能看到，我看到的就是我想看到的”的理想目标。

商业营销和娱乐互动基于此，也会更加有趣。比如你想买车时，可能一辆以假乱真的玛莎拉蒂立马就开到你面前的马路上，美女模特下车和你互动并展示车的性能参数与炫酷外观内饰。

当你去游览各种名胜古迹时，也不需要请导游讲解。

雅典卫城破损的神庙恢复如初，在雅典娜女神帮助下的希腊人，好像正在设计特洛伊木马；

罗马斗兽场正在上演公元一世纪最受罗马贵族喜爱的残酷格斗，九万余人按身份阶层在整个体育场呐喊，持三叉戟和网的角斗士正准备杀死恳求神发慈悲的失败者……

3. 智能交互时代的三大特征

三维视觉与空间计算驱动的智能交互时代有三大特征：

① 物理世界的数字化：

很多人说互联网和移动互联网的下一代是物联网，万物互联。我们通过各种各样的传感器，将我们的工作和生活场景进行量化和数字化。

智能家居就是一个非常典型的场景，像智能台灯、智能开关、智能监控、智能电视、智能路由器、智能空调、智能窗帘等等，我们通过各类传感器，将物理场景进行采集和数字化，同步到云端。

不仅如此，我们还对自身进行量化和数字化，比如我们跑步、走路、睡眠时，都在产生大量的数据，包括心跳、体重等，我们每天都会看这些数字，用来炫耀或优化自己的物理身体。

还有一种逐渐从工业界渗透到我们生活中的非常重要的物理世界数字化手段，统称三维建模。

包括用专业设备进行的超大规模三维重建、中小规模三维重建、以及游戏动画影视行业的CG建模，已经能达到以假乱真的地步。

② 数字世界的物理化：

什么意思呢？就是在数字世界非常庞大的现实下，从网页，Google、百度的索引数据库，到每个企业的业务数据，我们在用什么样的方式跟数字世界打交道、我们如何感知和反馈数字世界。

③混合现实的智能化：

人有视觉、听觉、触觉、嗅觉、味觉，人类感知世界的方式，是通过感官获取到生物信号经由大脑的主观诠释，当物理刺激同时对不同感官进行刺激时人就会信以为真，所以我们要让人类感知数字世界，传感器的协同反馈非常重要。

今年上映的现象级电影《头号玩家》，描述了未来的游戏体验综合反馈了三种以上甚至四种五种感知的协同反馈。相信大家看得很过瘾，甚至有很强的代入感。

他们戴着VR头盔可以协同解决视觉和听觉反馈的一致性，所穿的特制服装很关键，当你被敌人攻击时，会在衣服上形成对你物理身体的协同刺激。但这是科幻电影中的想象。

在现实世界，这部分做得还很差。我们现在和数字世界交互、建立物理和数字链接的方式还很简单，用PC和手机。扫福字、扫红包就是很典型的体验，通过图片和平面的扫描，把数字世界的相关信息激活，用手机屏幕显示出来。

由于技术限制，我们从微信、微博、头条，到抖音、快手、爱奇艺，所有跟数字世界打交道的方式都是这五寸左右的小屏幕，所以一个个都成了低头族，进而阻碍了我们跟真实世界的联系，忽略了身边的人和事。

更严重的是，从2016年开始小米走向低谷，标志着智能手机行业经过十年的发展已到达了平台期、存量期。

苹果引领了齐刘海之后，出现了几十款高级复刻品。基于触屏手机交互已没有什么创新空间，苹果最新发布会所有产品的亮点也只是A12仿生芯片和AR。

我们都知道，苹果、微软、谷歌等都在紧锣密鼓地研发消费级AR眼镜。我们认为，能同时对视觉和听觉沉浸式反馈的AR眼镜是手机的下一代交互方式，那我们有什么样的期待？为什么2012年推出的Google Glass没有成功？

这就是混合现实智能化，也是三维视觉和空间计算要解决的问题。

4. 如何实现混合现实智能化？

首先是三维感知：即对三维场景的深度估计或物体表面形状的数字化采样，这里涉及到了多传感器的快速标定、多目视觉和惯导融合、多传感器融合比如雷达、全景相机等，还有基于事件相机的SLAM。

其次是位姿感知：即当你对周围空间进行感知后，要确定你与环境之间的实时动态关系，对相机或物体在三维空间中的位置和朝向的计算进行实时追踪。

也就是我们常说的六自由度的重定位算法、VIO（多目视觉和惯导融合）、SLAM（simultaneouslocalization and mapping，即时定位与地图构建，或并发建图与定位）、Sematic SLAM等等。

接着是三维重建：对三维场景或物体的形状和表观模拟，以及运动估计和动态重建，包括：

地图构建和持久化、地图优化、多地图对齐和融合、通过SLAM进行稀疏3D重建、SFM（Structure From Motion，从运动恢复结构）、结合深度数据的稠密3D重建、深度学习优化的3D重建等等。

最后是三维理解，也是我们的进一步目标。

这就要求做平面语义分割、3D语义分割、动态目标分割与追踪、实时语义内容检索以及对位姿感知的反馈优化等。

解决了这些问题，也就解决了物理世界数字化、数字世界物理化、混合现实智能化的问题。

三、悉见在三维视觉方面做了什么？

从2012年开始深度学习大范围推广，2015年，AR、机器人、无人驾驶开始引起热潮，悉见也在这个时间成立。

之后微软的混合现实眼镜HoloLens上市、苹果和谷歌发布AR软件平台ARKit和ARCore，再之后手机开始支持正面的3D深度摄像头，不久后置深度摄像头也会出现。

悉见AR眼镜第一代在2017年底量产出货。2018年国外出现三维场景实时重建的软件产品，悉见也发布相应的混合现实大脑平台xarc.ai，今年10月份悉见和北大成立了联合智能技术研究中心，重点推进三维视觉的产学研（产业界、学术界、研究界）进展与落地。

如果用一个词来总结三维视觉的发展趋势，就是“融合”，包括：

传统几何算法与深度学习方法的融合、多传感器的融合、软件云服务与硬件的融合（包括算法的硬件化/芯片化）、以及与具体应用的结合，比如AR/VR/MR、AGV、自动驾驶、机器人等等。

在这个过程中，我们总结出了一套系统架构，可以高效解决各行业对三维视觉和空间计算的需求。

从上到下可以分为五层，分别是物理层（PhysicalLayer）、数字层（Digital Layer）、引擎层（EngineLayer）、终端层（Device Layer）、应用层（ApplicationLayer）。

物理层就是我们的真实世界。数字层是对真实世界的数字化采集和重建。

在数字层，我们提供高精地图采集专业设备，可以做到厘米级到毫米级的精度、每天十万平米的高效率，而且支持端到端的定位网络生成和上千种物体的智能识别。

引擎层是三维混合现实数据存储、检索、渲染和交互的驱动平台。

在引擎层，我们提供了整套的自动化建图工具、混合现实场景编辑工具，以及适配多种设备的终端SDK。

终端层是用户与数字层交互的入口设备和计算平台。

在终端层，我们已经研发和量产了多款AR和AI眼镜，包括去年量产的首款45°视场角、166g最轻亮双目AR眼镜一体机、今年量产的第二代强性能AI眼镜用NPU进行人脸识别、车牌识别、空间定位、以及即将发布的代号M消费级AI眼镜。

应用层是跑在混合现实系统上的所有应用，就像手机里安装的各种各样的APP。

同时悉见自主研发视觉加速芯片XVPU，也对我们各代硬件设备的智能化和小型化，起到了关键的作用。

目前我们市场团队在第一线接收到了多个行业万亿级三维视觉需求的快速增长，如同PC时代和智能手机时代，各行业及消费级应用生态会随着基础技术平台和工具的完善快速丰富起来，一起迎接三维智能时代的到来。

文章为讲者独立观点，不代表笔记侠立场。

内容来源：2018年10月24日，悉见科技创始人&CEO刘洋受邀出席《2018中国虚拟现实大会》，并发表题为《三维理解与重建是智能交互时代的基石》的精彩分享。在演讲中，刘洋对人工智能领域的未来作出了判断和预测，并首度完整阐述了悉见科技混合现实大脑xarc.ai的系统架构及商业价值。笔记侠作为合作方，经主办方与讲者审阅授权发布。

分享者：刘洋，悉见科技创始人&CEO

来源：https://mp.weixin.qq.com/s/I54hcrs5Vhi59LzVva7-hA

题图来自Unsplash，基于 CC0 协议