2019-10-28 14:32:49

作为物联网的重要组成部分,车联网已经成为是科技、互联网巨头们争相进入的新领域。

2014年,苹果推出了基于iPhone的智能车载系统CarPlay;Google也在同年发布了对标产品Android Auto。智能手机系统的两强格局,再一次被平移到智能车载系统市场。

在底层系统之上,手机时代的应用开发者们,也开始思考驾驶场景中App的交互逻辑。今年8月,腾讯发布了车载微信产品。车载微信仅保留了微信最核心的几项功能:消息查看、发送与语音通话。为了驾驶员的安全,车载微信的交互方式,仅支持语音与方向盘按键。

在车联网时代,汽车不断智能化,而人车之间的交互也将更加多样、频繁。如今,智能汽车的操作系统与上层应用正在蓬勃发展,但在软件层之下,人车之间究竟该如何实现高效、安全、易用的人机交互,仍然是值得所有从业者思考的一大难题。

从传统的机械按键到现代化的触控屏、语音操控、手势操控,人车交互的途径越来越多。而未来,智能汽车的主动感知功能,也许将成为人车互动的终极追求。

多模交互时代来临

从1885年的奔驰一号到如今的纯电动车,汽车的技术架构与产品形态,都经历了翻天覆地的变化。但对于汽车厂商而言,为汽车添加尽可能多的功能,可能是唯一不变的追求。

如果一名19世纪的汽车驾驶员穿越到当下,很可能对现代汽车上无数的按键、旋钮与触控屏感到茫然。座椅调节、空调、电台、音乐播放,现代汽车集成了越来越多的功能模块,这些模块在丰富汽车驾驶体验的同时,也给驾驶员带来了更多的操控负担。

在汽车智能化的背景下,驾驶员的“认知过载”已不可避免。如何改善人车交互体验,让驾驶员专注于驾驶本身,从座椅调节、路线导航、听歌点歌等各种琐事中解放出来,从而提升人车交互体验和驾驶安全,将会成为下一代人车交互产品的首要目标。

以“触摸+语音”为核心的传统人车交互模式亟待新的变化

如今,以“触摸+语音”为核心的传统人车交互模式,几乎已经达到了车内用户的交互体验天花板。若想在保证驾驶安全的前提下实现更复杂的人车交互,“多模交互”势在必行。

何为多模交互?

这是一种融合了视觉、语音等多感官的AI交互方式。驾驶员、乘客可以通过语音、手势等多种方式为车辆下指令,而车辆也具备智慧感知功能,可以更准确地判断用户意图。以音乐播放为例,传统的车载音乐播放模式,是驾驶员通过按键、旋钮、触屏等介质,选择、控制音乐播放。在单模态下,用户可以使用语音操控音乐播放,而多模态加入后,车辆可以通过人脸、声纹识别的方式,识别发出指令的用户,并根据用户的个人喜好及环境场景提供定制化的歌单。此外,多模交互在很多实际应用场景都将对交互体验产生质的提升,如基于唇语和语音调节不同车窗,基于情绪识别进行智能主动抓拍,基于注意力检测提供语音提醒服务等等。

事实上,多模交互的意义远不止解放车内用户交互操作。通过感知、推荐、交互等环节,多模交互将赋予汽车生命和智慧,让汽车实现主动式的思考,持续优化车内服务和场景迭代。

多模语音交互将实现让车主动服务人的转变

多模交互将使设备能够结合用户行为习惯从而更精准的判断用户意图,实现 AI 时代的立体智能推荐多模交互。这一切,已经不再停留在产品设想层面,一些国内技术提供商已经开始将多模态人机交互产品落地化。

技术落地的前景与挑战

但多模交互人车交互的技术实现,并非易事。

36氪就多模交互趋势与地平线进行了对话,在地平线的多模态人车智能交互解决方案中,摄像头、麦克风阵列、芯片平台与CAN总线构成了最核心的硬件元件。其中,摄像头实现了人脸与手势的识别,麦克风用于获取语音信息,芯片与CAN则负责通信,并将指令下放到输出层。这其中,不仅涉及到不同形态的技术,不同来源的数据融合。

地平线希望通过多模交互融合视觉和语音,从而实现 “1+1>2”效果

传统的单模交互方式,如语音交互往往会有很大局限性。相较于家居场景中的智能音箱,车内场景噪音大、人员密集,语音识别难度会更大。汽车该如何感知驾驶员与多位乘客提出的不同语音指令,将指令精准定位到人,一直是一个难题。中国新造车品牌理想旗下首款产品——理想ONE,通过搭载的地平线多音区识别方案,采用了声源定位、盲源分离和降噪算法,实现了车载环境下的多音区交互。

但在地平线看来,这远远不够。

在最近与某主机厂的合作中,地平线提供了多模命令词方案。该方案采用了视觉识别与语音识别技术,通过对唇语和语音的融合分析,从底层逻辑上降低了误唤醒率与不发声情况下的误识率。地平线多模产品负责人表示,“多模命令词是业内首创的将唇语特征和语音特征融合进行语音识别算法,联合学习两种模态的数据可以有效提高高噪声环境下的命令词识别率,及降低不发声情况下的误识率。”

理想ONE车内的四麦克风布置

在视觉交互方面,以座椅调节为例,在汽车发展史上,座椅调节功能从无到有,从机械到电动,从手动调节到智能记忆,一直处于不断的演进之中。而基于人脸识别的座椅记忆功能,则可以彻底解放用户双手,汽车监测到用户上车后,便可以根据用户的设定,自动调节好座椅位置,无需用户进行任何操作。

此外,如上文所言,在多模交互时代,智能汽车的核心体验也不止于个性化。主动化,是多模交互的另一个关键词。比如当汽车传感器监测到车内用户开心时可以主动抓拍,当检测到驾驶员出现闭眼、打哈欠、玩手机等危险驾驶迹象时,车辆也可以发出提醒,甚至对疲劳进行分级并提供不同的疲劳降解甚至警报服务。

无人驾驶普及之前,汽车对驾驶员危险驾驶行为的干预行为,将会大大降低事故发生率。

芯片算力和算法的迭代演进是关键驱动力

毫无疑问,汽车行业正经历着深刻且快速的变革。汽车不再仅仅是一个交通工具,更是一种生活方式,同时也是一种时尚的潮流,这里面有无限服务的创新的可能。让出行更安全美好的不仅仅是自动驾驶和辅助驾驶,在商业模式创新方面,有分时租赁和共享出行;在前端的高科技技术集成方面,有车联网和 5G 加持的高速互联,有车路协同带动的基础设施进步;在车内人机交互方面,更智能更先进的交互技术也在不断落地应用,这种变化就如同当年PC时代与移动时代之交苹果带来触屏交互。

不久的未来,我们需要在底层的算力支撑上去构建一个丰富的人工智能软件框架,其中有环境感知,它可以借助多种传感器对周围环境实现三维动态全景的感知建模,并根据周边的所有目标特别是动态目标的行为预测去做决策规划布置;同时这个软件框架下,智能座舱技术如多模人机交互将会得到更为有丰富的体验,比如更清晰的显示屏,更自然的语音、视觉交互,但无论车外环境感知还是车内智能座舱,都同样对芯片算力和算法提出了不断递增的要求标准。

如地平线这样的人工智能企业在汽车产业链中扮演的角色就是以边缘AI芯片为合作伙伴提供底层算力,支撑起上层应用软件。

汽车产业的迅猛发展,带动的是整个信息产业的发展,这其中就包括传感器、AI 芯片,以及最先进的人工智能软件系统。

目前,业界普遍认为,在自动驾驶时代到来前,ADAS(辅助驾驶)、DMS(驾驶行为监测)、多模交互等智能驾驶功能,将成为自动驾驶过渡阶段的智能汽车标配模块。未来,汽车的AI感知能力仍将会不断演化,而如何借助人工智能让汽车更智能、让人机交互更自然,则将是车厂和相关技术企业在当下的重要目标。

多模人车交互,智能汽车的AI感知进化相关推荐

  1. 第十六届智能汽车竞赛AI视觉组分赛区数据集发布

    第十六届智能汽车竞赛AI视觉组 分赛区数据集发布 §01 图片规格   各参赛同学你们好,为保障第十六届智能汽车竞赛AI视觉组的顺利备赛,组委会及赞助单位NXP一致认为可以将分赛区的数据集提前公布,经 ...

  2. 一、第十五届全国大学生智能汽车竞赛AI电磁——项目介绍

    基于深度学习的智能车项目总结 一.项目背景: 二.日常调车+比赛视频: 三.项目整体介绍: 1.先来个项目思维导图? 二.硬件设计篇介绍 一.项目背景: 写这篇文章的目的是为了纪念一下自己大学里那段为 ...

  3. 智能汽车(ADAS)识别感知摄像头激光雷达为什么需要标定校准

    车载识别摄像头是实现众多预警.识别类ADAS功能的基础.像自动紧急刹车(AEB).车道偏离预警(LDW).车道保持(LKA).行人警示(PCW).自动泊车(AP).疲劳驾驶预警(DFM).交通标志识别 ...

  4. 二、第十五届全国大学生智能汽车竞赛AI电磁——硬件设计篇

    2.介绍一下硬件部分? (1).电源模块 怎么去选择整个系统的电源方案呢? 1.进行需求分析:考虑整个系统需要用到哪些电源,有什么要求,比如智能车中我们一般使用电池供电(7.4v);而我们的需要给单片 ...

  5. 第十六届全国大学生智能汽车竞赛总决赛 AI视觉组线上赛细则

    简 介: 本文对于参加2021年第十六届智能车竞赛全国总决赛线上比赛室内AI视觉组比赛细则. 关键词: 智能车竞赛,线上比赛,室内视觉AI 一.比赛方式   由于AI视觉组的特殊识别任务,比如分赛区的 ...

  6. 2018智能汽车盘点,新旧造车势力的智能化PK

    现在一提起手机,人们脑海中的第一印象肯定不是以前那个只可以打电话发短信的手机了,而是集多种功能于一身的智能手机. 手机已经从功能手机进化成了智能手机,目前这种智能化的趋势从手机上开始延伸到汽车上,越来 ...

  7. 2018智能汽车盘点,新旧造车势力的智能化PK 1

    现在一提起手机,人们脑海中的第一印象肯定不是以前那个只可以打电话发短信的手机了,而是集多种功能于一身的智能手机. 手机已经从功能手机进化成了智能手机,目前这种智能化的趋势从手机上开始延伸到汽车上,越来 ...

  8. 30~60k | 小鹏汽车3D视觉感知工程师/专家招聘(社招)

    3D视觉工坊致力于推荐最棒的工作机会,精准地为其找到最佳求职者,做连接优质企业和优质人才的桥梁.如果你需要我们帮助你发布实习或全职岗位,请添加微信号「CV_LAB」. 公司简介 通过数据驱动智能电动汽 ...

  9. 【智能驾驶】清华大学汽车工程系主任杨殿阁:智能汽车的发展趋势研究

    4月26日,2018第十届全球汽车产业峰会在北京举办,本次论坛以"创新技术引领产业未来"为主题,会议期间,清华大学汽车工程系主任杨殿阁教授发表了精彩演讲,演讲内容如下: 清华大学汽 ...

最新文章

  1. 浙大读博八年现靠送外卖赚钱,本人:进组以来博士无一人按时毕业
  2. 多租户系统技术实现mysql_SaaS “可配置”和“多租户”架构的几种技术实现方式...
  3. Discrete Logarithm is a Joke __int128 浮点数e
  4. 客户旅程_我们进入微服务世界的旅程-以及从中学到的东西。
  5. (WWWWWWWWWW)codevs 3305 水果姐逛水果街Ⅱ
  6. Spring Security(5):自定义决策
  7. 每个python文件就是一个模块、模块的名字就是_Python-模块和包
  8. [CS131] Lecture 1 Course Introduction
  9. 《流畅的python》学习笔记及书评
  10. 计算机网线接口松动怎么办,家里宽带“罢工”怎么办?中国移动教你五步排障法...
  11. 1、ARM嵌入式系统:KL25Z128 初始化整体流程
  12. 硬件知识:视频分配器、画面分割器、矩阵、延长器相关知识介绍
  13. 单片机/开发板连接配置的三种方式
  14. 【挖坑记】JZOJ 4722 跳楼机
  15. Linux 桌面玩家指南:02. 以最简洁的方式打造实用的 Vim 环境
  16. 一篇文章带你快速弄清楚什么是终端
  17. 618电商大数据分析可视化报告
  18. VMware14.0无os x选项问题解决
  19. 爬取防盗链图片福利你懂得
  20. 山东财经大学新生赛暨天梯赛选拔赛 A 骆驼拼写法

热门文章

  1. matplotlib绘制多个子图
  2. C++ size_t 与 size_type区别
  3. java.lang.Instrument 动态修改替换类代码
  4. 从jar包中读取资源文件
  5. 设置ECLIPSE插件注意目录的结构
  6. Iterator(迭代器)的一般用法
  7. oracle配置oracle Database Configuration Assistant失败是什么原因?
  8. 行人识别,无需Anchor | CVPR 2021
  9. 为什么对 Java 性能调优最后都像在调 you?
  10. 原版销售累计超过150 000册的经典JavaScript入门书