多模态交互的概念与现状
一、多模态概念
所谓“模态”,英文是modality,用通俗的话说,就是“感官”,多模态即将多种感官融合。
目前的人机智能交互比如语言控制不如屏幕控制那么精准,很多时候会误判指令和错误唤醒,比较语言充满了不确定性;再比如,语音交互的物联网设备还是缺乏主动服务的能力,只是换了操作方式而已,用户体验没有本质提升。
假如我们把“模态”通俗地理解为感官,那么智能音箱就是只具备听觉模态的物联网设备,而加载AI分析能力的摄像头可以视为视觉模态的物联网设备。把听觉、视觉甚至更多模态组合到一起,多模态物联网也就诞生了。
目前的AI设备中感知模态主要有三种:
1.语音交互,包括语音指令控制、语义理解、多轮对话、NLP、语音精准识别等领域;
2. 机器视觉,包括自然物体识别、人脸识别、肢体动作识别等;
3. 传感器智能,包括AI对热量、红外捕捉信号、空间信号的阅读与理解。
把这三种东西融合在一起,物联网设备就可以在单纯的能听会说之外,同时还用摄像头观察、用传感器判断。而比较前沿的多模态感知还包括机器嗅觉,机器触觉和情绪理解等内容,但目前还没有落地产品。
二、多模态应用
目前多模态交互的主要应用场景:
场景一:多模态AI交互技术投射在物联网设备上,大概就是用机器视觉技术进行嘴唇识别,来分离语音交互指令。尝试通过用机器视觉来读取说话人的唇语和动作,来判断每个声音指令的来源。
场景二:多模态空调。在一些新的智能空调解决方案中,空调会在语音交互的基础上通过机器视觉来判断用户的位置,提供智能送冷,并且会结合传感器判断屋内温度和湿度,提供更精准的环境方案。
场景三:多模态电视。今年电视背后的AI平台战打得风生水起,把机器视觉技术引入电视成为了新的趋势。通过机器视觉来让电视观察屋内照明情况、用户与电视的距离,电视可以主动调节屏幕光线强度,输出比较护眼的模式。还有的AI应用是让电视在观察到儿童看电视后主动开启童锁。
三、多模态交互解决方案
目前来看,无论是家电还是工业设备,实现多模态混合的主要方式还是把不同的传感源输入到设备处理中心,启动一定程序来开启相应服务。换句话说,AI模型本身是没法理解多模态信号的,只是不同的算法启动不同的开关而已。这种“伪AI多模态”的设备也不是不行,只是在实时化和复杂的推理判断上会有心无力。
解决方案可能是一种叫做“多模态深度学习”的技术,让AI智能体本身能够理解多模态信号,从算法本身就容纳听觉、视觉、传感信号进行统一思考。这样可以保证设备高度实时化,并且可以让设备进行多模态协同学习,真正地“聪明”起来。
四、多模态交互产品
物灵科技 ---- Luka Hero ,Luka Baby机器人(早教机),绘本(定制)阅读
阿里巴巴 ----AliOS智能车载交互系统:,AliOS对外宣布了人脸识别技术,可以针对不同的驾驶者进行差异化的智能化场景服务。AliOS通过车内摄像头对驾驶员进行面部识别,从而提供播放个人歌单、常用路径、座椅及后视镜角度自适应等个性化服务。
五、总结
目前来说,还没有真正意义上的多模态落地产品,多数产品只是打着多模态的旗号进行宣传,实际工作时,各模态之间还是独立运作,即虽然这些产品都有眼、有耳,但眼只做图像处理,耳只做语音识别,运行时并没有进行交差计算。
多模态交互的概念与现状相关推荐
- AI公开课:19.03.06何晓冬博士《自然语言与多模态交互前沿技术》课堂笔记以及个人感悟
AI公开课:19.03.06何晓冬博士<自然语言与多模态交互前沿技术>课堂笔记以及个人感悟 导读:AI与产业界结合,算法还是很重要的. 计算机能不能思考?会不会思考?把哲学问题转为科学问题 ...
- 多模态交互在,数智化营销服中的技术实践
营销服数智化进入人机协同阶段 数字经济从2019年起已连续4年写入政府工作报告,数字经济被看作是与农业经济.工业经济相对应的新的经济形态,数字化转型实际上是从工业经济向数字经济的转变.在如今这样一个充 ...
- 设计心理学中的映射交互设计概念|优漫动游
我们经常会谈到用户体验,其实好的用户体验与设计映射是有很大关系的,今天的设计法则-映射,希望能为你提升产品用户体验度带来一点思考.今天我们来了解一下,设计心理学中的第三个交互设计概念:映射. 同样,这 ...
- 智能音箱——多模态交互之DPL 2.0
AI带来的最大改变之一就是人们交互方式的改变.从传统的键盘/鼠标到触摸屏点击操控,终于迎来了智能语音交互.随着智能语音应用逐渐普及和发展,我们仿佛可以捕捉到到智能交互发展轨迹.在一次大会分享中,我们谈 ...
- 一文读懂零信任架构的概念、现状和挑战(来自玉符科技CEO专访内容)
2020年,企业高管和CISO们的头号任务就是数据安全和隐私保护,对于拥有海量用户数据的企业来说,数据安全和隐私保护正面临三大挑战:合规.远程办公加速安全边界消失.数字化转型(上云).而零信任正是当下 ...
- 【聆思CSK6 视觉AI开发套件试用】头肩检测多模态交互初体验
本篇文章来自极术社区与聆思科技组织的CSK6 视觉AI开发套件活动,更多开发板试用活动请关注极术社区网站.作者:Alex_bG9Qau 背景 前段时间,忘记在哪个渠道,看到有聆思CSK6系列芯片视觉A ...
- 从概念到现状,一文读懂边缘计算
来源丨TechSugar 文︱Sophia 图︱网络 什么是"边缘计算"?想要弄清楚这一概念的含义,我们还得从"云计算"谈起.云计算(cloud computi ...
- 云计算的概念,发展现状,实现机制,Google云计算原理
第1章 绪论 很少有一种技术能够像"云计算"这样,在短短的两年间就产生巨大的影响力.Google.亚马逊.IBM和微软等IT巨头们以前所未有的速度和规模推动云计算技术和产品的普及 ...
- UED、UCD、UE、UI、交互设计概念
作者:王阅微 链接:https://www.zhihu.com/question/19908990/answer/14314128 来源:知乎 著作权归作者所有.商业转载请联系作者获得授权,非商业转载 ...
最新文章
- 发布我的第一个flex作品
- 探测器扎堆火星,毅力号:谁挡我WiFi了!
- Ubuntu开发Java教程_Ubuntu下Java环境的搭建基础教程
- 区域数据导入功能(POI使用方式)
- 数据结构栈和队列_使您的列表更上一层楼:链接列表和队列数据结构
- 发一个招聘启事,成都有兴趣的朋友可以来看一看。
- [教程]centos卸载、安装mysql(源码编译安装方式)
- JavaBean对象转Map对象
- ios label 高度紫石英_iOS_NSMutableAttributedString和自适应宽度高度
- Sofa memcached client
- 第13期 《仰望星空,脚踏实地》 12月刊
- PTA7-4 考试周
- 【问题思考总结】为什么跳跃间断点变上限积分连续但是不可导?【直观理解 几何方法】
- ctfshow 网络迷踪-给你拷上
- Linux云服务器基础学习
- 前端面试题及答案(字节跳动)(二)
- 微博博主侮辱女性 街猫koryili
- java系列之:获取当前时间和当前时间上一个小时的时间
- CTF之旅WEB篇(3)--ezunser PHP反序列化
- gcc compile : assignment of read-only location '*p'