小时候看特务电影时,特工们往往有一项必备的技能,就是隔着几百米远盯着正在说话的对象,从嘴型判断出对方在说什么。有了这种记忆,导致如今看什么语音识别技术都觉得相当一般——我都说出声儿了你才听懂,算什么AI好汉。

不过最近一项专利申请表明,微软正在向特工学习,推出了无声语音识别技术。当AI也能像特工一样,无声之中辩人言,我们的世界究竟会有什么不同?

除去唇语识别,AI还有什么方式悄悄听懂你的话?

说起无声语音识别,可能很多人第一反应就是复制人类的方式,利用图像识别进行辩读唇语。而利用唇语进行语音识别这种方式也由来已久,但是识别的准确率一直不算高。DeepMind曾在2016年做过测试,经过1万小时的新闻视频训练,AI唇语准确率达到了46.8%。国内有一家企业曾经提供过相关数据:在对中文新闻视频的识别中,准确率达到了70%。而搜狗所推出的驾驶场景下的唇语识别,因为涉及到的词汇量很少,准确率能够达到90%。

可以发现,相比现在主流语音识别动辄95%、97%的准确率,唇语识别准确程度实在是有些拿不上台面。对于中文这种一字一音节的语言来说还好,对于英文这种连音很多的语言来说,唇语识别要跨越的门槛确实不小。

另一方面来看,唇语识别所涉及到伦理问题实在过于严重。唇语识别的“射程”太远,如果这种技术真的发展成熟,意味着天网之下的我们在交谈时将再无隐私。在隐私焦虑越来越浓的今天,哪家企业公开研究这项技术,只怕是觉得自己家的公关部门过得太清闲。

因此包括微软在内的产业和学界,都在寻找一种更精准也更隐私的无声语言识别。目前看来,无声语音识别的技术方向可以被分为两个“派系”,一是“气宗”,另一个是“电宗”。

微软所提交的专利,就是典型的“气宗”——在终端上添加传感器,通过感知用户说话时的气流来判断用户说话的内容。这种终端如同一只小型麦克风,置于用户嘴边,用户在说话时形成的气流会在设备中形成反射,经过训练,可以将这些气流反射的信号和文字一一对应。

而“电宗”则更加神奇,我们知道人在说话时需要调动整个下半张脸的肌肉,不同的文字发音所调动肌肉的方式也并不相同。通过对面部EMG(肌电)信号的采集,来学习人类说话时面部EMG信号特征,并通过神经网络的训练将EMG信号和文字对应起来。

可以看出这两种无声语音识别都有一个共同的特点,那就是自主性和私密性。不管是EMG信号采集还是气流采集,都需要在讲话者身上佩戴好设备,而不是像图像技术一样,能够在远程且讲话者不知情的情况下进行采集分析。

无声语音识别变成真·气功?

不论是气宗还是电宗,这些无声语音识别技术都面临着同样的问题——既然要用户把话说出来才能进行识别,那为什么不直接应用语音识别来进行文字转换和翻译,非要弄一些和“气功”一样没有切实应用场景的花招?

其实无声语音识别的应用,可能不像大家想象的那样广泛,它既不能以最高效的方式帮助听障人士,也不允许被应用于监听等等工作。但在一些关键场合下,无声语音识别却可以发挥出奇用。

我们可以一起开动脑筋,想想在哪里人们需要说话,但却听不到彼此的声音。答案很简单,要么是在声音无法传播的地方,要么是在一些特别嘈杂的地方。于是无声语音识别就有了如下的应用场景:灾害现场、舱外探索、水下作业……

在这类场所中,人们或许为了躲避被污染的空气、或许为了呼吸氧气,都会穿上类似生化服、宇航员服等等特殊服装。穿上之后既看不到对方的表情,也听不到对方的声音,更没办法用语音交互去控制其他设备了。同时环境情况(例如氧气不够充足)往往不允许人们以正常的声音说话,加上防护服的封闭状况会引起声音的回响,以往的有声语音识别在这种情况下很难发挥作用。

这时可以被安置在防护服内部的无声语音识别就显得很有价值,讲话者只需要做出口型就能向外界传递信息。

除此之外还有嘈杂的马路、工厂车间、机场……

在这些场所中,想要让对方听清自己的声音,往往需要扯着嗓子吼。想让语音识别准确拾音,更是难上加难。这时利用无声语音识别就会轻松很多,不仅可以准确表达信息,也能让一些处于这种场合的工作人员戴上隔音耳塞保护自己的听力。

实际上目前在欧洲一些型号的战斗机中,就因为机舱内噪音巨大、飞行员之间无法沟通,已经应用上了EMG信号无声语音识别技术。

当然,目前相比语音识别技术、甚至相比唇语语音识别,无声语音识别技术的发展阶段还很初级,应用效率也不高。

实际上无声语音识别是一项典型的“美好而无用”的AI技术,它既完美体现了一系列技术的排列组合,例如EMG信号无声语音识别所体现出的AI与神经学的结合;又在应用上极大程度的受限,即使在一些声音难以传播的场景下,也要考虑计算条件、识别语音后信息再传递的媒介,更不用提复杂的数据收集工作了。

但我们有理由相信,在未来AI技术越来越普及化、应用成本越来越低时,总会出现一些极端场景应用上这些看似无用的技术——也许未来有一天,战斗机的控制也要应用上语音交互呢?

本网站转载的所有的文章、图片、音频视频文件等资料的版权归版权所有人所有,本站采用的非本站原创文章及图片等内容无法一一联系确认版权者。如果本网所选内容的文章作者及编辑认为其作品不宜公开自由传播,或不应无偿使用,请及时通过电子邮件或电话通知我们,以迅速采取适当措施,避免给双方造成不必要的经济损失。

无声也能语音识别?微软这个黑科技有点厉害相关推荐

  1. 原来小米手机这么好用,这4大功能,各个都是黑科技,厉害了

    小米手机一直以性价比而广受用户喜爱,但还有一大部分人,是因为MIUI系统而喜欢使用小米手机的.小米MIUI系统的易用性在国产UI中算是数一数二的,并且MIUI的黑科技功能也有很多,尤其是这4大功能,各 ...

  2. 原来OPPO手机黑科技这么厉害!开启这个功能,息屏也能看时间

    手机在我们生活中的作用越来越大了,很多学习.工作中的事情都可以通过手机来完成. 而且现在手机中的黑科技越来越多了,比如OPPO手机就有很多非常厉害的黑科技. 不信?那下面就来一起看看吧! 原声技术 一 ...

  3. AIoT、DevOPS、数据平台、开源,你不可不知的微软 Azure 黑科技大公开

    头图 | CSDN 下载自视觉中国 2020 年疫情为全球经济带来了不小的冲击,也为数字化市场的参与者带来的新的发展机遇.在过去数年中,众多的国内企业在"一带一路"倡议的引领下开始 ...

  4. 微软黑科技如何加速游戏开发,读这篇就够了

    2022迈入尾声,游戏产业这场凛冽的寒风比想象中更为持久与刺骨. 一边是投入的缩减,一边是玩家攀升的要求."既要又要还要"成为游戏制作人的高频句型.在紧预算与精制作的矛盾面前,游戏 ...

  5. vs显示不是有效的window32_玩转“黑科技”,这才是选购“户外显示屏”的正确方式!...

    点击蓝字关注我们 在大数据时代,户外Led显示屏不仅仅是一个广告终端,而是一个能强化用户体验的智能化信息交互设备. 户外Led显示屏作为多媒体广告呈现设备,正凭借着杰出的广告效用逐渐替代传统广告媒介. ...

  6. 到数博会看“2017十大黑科技”

    这界数博会一个很有意思的点就是"黑科技"众多,为此组委会还专门评选出了"2017十大黑科技".那么问题来了,到底什么是黑科技呢,怎样才能算是黑科技?这界数博会都 ...

  7. 最新【独家沙龙内容整理】机器女友?—百度微软讯飞等顶级专家谈人机对话黑科技及未来 ——by中科院孢子创客空间

    最新[独家沙龙内容整理]机器女友?-百度微软讯飞等顶级专家谈人机对话黑科技及未来 --by中科院孢子创客空间 1.写在前面 非常非常感谢[公众号:机器学习研究会 ]举办的这次沙龙.赞赞赞.以下内容皆来 ...

  8. 微软自拍:让黑科技拯救不会拍照的你

    微软自拍:让黑科技拯救不会拍照的你 微软亚洲研究院 2015年12月28日   你知道吗,不久前淘宝发布的消费数据报告显示,自拍杆的购买主力军居然是50-59岁的人群!无论你是否买过自拍杆,毫无疑问, ...

  9. 【微软黑科技一周概览】

    七月份的尾巴,八月份的前奏,人山人海,丹棱君怎能错过你的等待,[微软黑科技一周概览]为你而来-- 1 7 月 31 日,微软中国宣布发售搭载英特尔®酷睿™ i5 处理器和 256GB 固态硬盘的多种颜 ...

最新文章

  1. BurpSuite pro v2.0.11版
  2. pycharm 配置码云(gitee)教程,如何将已有项目push到码云?
  3. swoole mysql 并发_Swoole4 如何打造高并发的PHP7协程Mysql连接池?
  4. Serverless 落地之痛怎么解?
  5. 超全PHP学习资源整理:入门到进阶系列
  6. C# 获取Excel中的合并单元格
  7. 漫步最优化三——优化算法的一般结构
  8. Mr.J--谈谈CSS和Html(font)
  9. 桌面的计算机被删掉了怎么调出来,误删了电脑桌面图标怎么办——一波超简单的操作,分分钟搞定它...
  10. Integer你真的了解吗,快来瞅瞅吧
  11. harbor 多端口_安装Harbor并修改默认使用的80端口
  12. 用mysqlslap对MySQL进行压力测试
  13. 2019.3.9日面试自我介绍
  14. python 密码安全_python密码安全程序
  15. Vue 倒计时插件 vue2-countdown
  16. [KALI] 开启ssh远程连接
  17. react-router-dom文档
  18. 移动硬盘遇到无法访问,参数错误的处理方法
  19. 用matlab进行频域分析,用matlab进行信号与系统的时频域分析
  20. 聚合收款码怎么推广?

热门文章

  1. IE代理服务器出错导致浏览器无法上网
  2. 微信小程序 encryptedData 的解密(JAVA)
  3. YTU 3003: 括号匹配(栈和队列)
  4. HDOJ_1016 素数环
  5. Visual Studio 2010 美女与程序员的爱情网剧+《耀和你一起》壁纸包
  6. CCF201803-4 棋局评估(100分)【博弈+DFS】
  7. Bailian4100 进程检测【排序】
  8. Go语言的素数对象编程实现及其使用
  9. Bailian2765 POJ NOI0113-03 八进制小数【进制】
  10. HDU1279 验证角谷猜想【水题】