10月26日,第四届Kaldi线下交流会在北京·小米科技园举行。

李稀敏博士在以“人机语音交互是否必须要先唤醒和离线语音技术在本地端上的实现是否未来的趋势”为题的圆桌讨论。与猎户星空&Kaldi群主吴本谷、小米智能科技的语音负责人王育军、知存科技CEO王绍迪共同探讨了人机语音交互前沿趋势。

以下为李稀敏博士的精彩分享:

01.人机交互必须要先唤醒吗?

语音交互流程被划分为五个环节 – 唤醒、响应、输入、理解、反馈。其中唤醒是每一次用户与语音产品交互的第一个接触点,唤醒环节的体验在整个语音交互流程中至关重要,它的体验好坏将直接影响用户对产品的“第一印象”。就目前市面上常见的语音交互产品来说,一个眼神或者一个动作还不能引起它的注意,因此需要定义一个将产品从待机状态切换到工作状态的词语,即所谓的“唤醒词”。比如“小度小度”“若琪”“叮咚叮咚”。那么,人机交互我们必须要先唤醒吗?

李稀敏认为:随着技术场景越来越成熟,当机器具备足够的智能化,机器是可以不需要唤醒词,就像跟人对话一样自然。但距离无唤醒交互的实现,还有一段路要走。

从声纹识别的角度来看有两种场景,第一种,用唤醒词作为命令词,设备在休眠或锁屏状态下也能检测到用户的声音(设定的语音指令,即唤醒词),让处于休眠状态下的设备直接进入到等待指令状态,开启语音交互第一步。第二种设置一个“唤醒词”,这时候我们可以将设备唤醒比作水龙头的开关,如果水龙头没有开关的话,摁都摁不住是吧?就像智能音响交互的时候,设备乱七八糟的识别了一大堆语音,这个东西出来摁都摁不住,所以人机交互还是要有“唤醒”步骤。但是否需要唤醒词,还需根据场景的需求来决定,没有所谓的通用答案。

02.声纹识别是否可以改进人机交互方式?

最近一段时间很火的苹果AirPods,华为荣耀FlyPods Pro都在主打身份识别。目前的唤醒大家都是在用这个特定的唤醒词,如果改用声纹识别,是否可以改变这种交互的方式?

李稀敏认为:在不同的场景中,最佳的唤醒的方式可以不同,但在耳机等可穿戴设备的场景中,声纹识别因其高易用性、非接触、不需要前置设备等优点,相对其他生物识别技术,能够更好的解决该场景的实际身份认证的问题,进而改进人机交互体验。

03.实现本地端离线语音技术是未来趋势?

“在贴身的耳机,也就是本地端做声纹识别,其实避免了一个技术问题:远场识别”,李稀敏解释。远场的文本无关身份识别由于复杂的信号传播环境等原因,是目前的技术难点,还有很长的路要走。但相对来说,近场的身份识别,在本地端可以通过技术手段快速解决问题。所以,接下来本地端近场身份识别能够大面积普及,在今后很多场景,我们随身携带一个小设备都能够直接识别身份。

关于本地化是不是未来的趋势。从数据的角度来讲,很多人是不希望自己的声音信息,人脸信息,通过设备或各种隐私接口上传到云端且变为不可控。李稀敏认为,从这个角度来看,本地化的AI的能力是一个刚需。

04.大热的语音合成技术TTS,跟声纹识别PK,谁会更胜一筹?

对于使用录音、合成语音等攻击手段的识别,是声纹识别必须要解决的问题。快商通在为银行、保险等金融客户设计声纹身份识别系统,这个是第一个需要解决的问题。

目前,对声纹认证的攻击,大概分成几类,第一类是模仿,第二类是语音合成或者语音转换,第三类是录音重放。根据实际欺诈的手段来讲,目前主要是防录音重放。其中,录音重放是最难检测的。解决了录音重放问题,就相当于解决了语音拼接和语音合成问题。

快商通在这一点上做得比较领先,我们的首席科学家李海洲院士,团队在ASVspoof2017自动说话人验证欺骗和对策挑战赛中获得第一名。包括在许多银行客户的测试中,我们都是100%检测到录音重放。

另外分享个故事,除了算法和系统本身领先,解决方案还需要数据驱动,大量的录音样本、各种设备、各种采样率、各种时长、各种环境的训练。1年前,我们在北京几家银行做测试的时候,白天我们在地铁上,在最嘈杂的环境下,各种测试都攻不破。

但晚上,我住在清华大学里,在10:00、11:00左右夜深人静、一点声音都没有的时候,掏出了我们的APP进行测试,却被攻破了。说明当时我们的训练数据没有覆盖到无杂音、无噪音的情况,当然,现在已经覆盖到了(笑)。

快商通李稀敏:近场声纹识别将普及,本地化的AI能力是刚需相关推荐

  1. 2020警博会,快商通邀您共赏声纹风“警”线

    2020警博会,快商通邀您共赏声纹风"警"线 倒计时!由中华人民共和国公安部主办的2020第十届中国国际警用装备博览会(简称"警博会")将于2020年11月23 ...

  2. 捷报!快商通斩获数字中国创新大赛2大重量级奖项

    10月12日,2020数字中国创新大赛·鲲鹏赛道年度总决赛在福州收官,快商通Kriston AI携"猎擎"声纹识别系统平台,从千支队伍中一路过关斩将,荣获"AI技术比赛二 ...

  3. 刷脸支付安全隐患引人深思,声纹识别“动态”优势凸显

    据中央广播电视总台中国之声<新闻纵横>报道,随着二维码支付的普及,一种新型的支付方式--刷脸支付逐渐走进人们的生活.今年以来,刷脸成为在线下支付的主要途径之一.消费者在购物付款时,不需要输 ...

  4. 声纹识别加持,苹果HomePod Mini能否“声”而不同?

    苹果今天在Apple Park以线上直播的形式举行"秋季发布会下半场".除了备受关注的iPhone 12系列以外,阔别已久的HomePod产品线新品HomePod Mini不期而至 ...

  5. AI「独角兽」企业!快商通厚积薄发,获福建省官方盖戳!

    近日,快商通得益于多年技术沉淀带来的产品创新及行业领头的人工智能赋能能力,获福建省数字办认证为福建省2021年度数字经济领域未来"独角兽"创新企业. 未来"独角兽&quo ...

  6. 赋能智慧城市,快商通亮相2019高交会

    11月13-17日,由中国商务部.科技部.工信部.国家发改委.农业农村部.国家知识产权局.中国科学院.中国工程院等部委和深圳市人民政府共同举办的第二十一届中国国际高新技术成果交易会(简称高交会)于深圳 ...

  7. 唯一智能客服企业!快商通入选猎云网企业服务领域最具影响力企业

    12月4日上午,猎云网在"逆势生长-NFS2020年度CEO峰会暨猎云网创投颁奖盛典"上颁布了2020「年度企业服务领域最具影响力创新企业TOP20」榜单,快商通凭借在智能客服领域 ...

  8. 「展会报名」WAIC2021我们来了,快商通首次公开揭晓对话交互智能

    快商通将于7月7-10日应邀参加上海-2021届世界人工智能大会WAIC(以下简称WAIC),本次大会将以"智联世界,众智成城"为主题,开展线下.线上双线并进的参展机制,于上海世博 ...

  9. 跨城联动!快商通携手国贸智谷打造新晋科创园区,铸造跃迁式智能生态

    近日,漳州市信息产业发展推介会暨国贸智谷招商签约仪式顺利圆满举行.会上,快商通与国贸智谷签署合作协议,双方将以促成新时代信息技术与漳州市各产业的深度融合为导向,借助快商通前沿的技术实力与行业" ...

最新文章

  1. 机器学习与高维信息检索 - Note 5 - (深度)前馈神经网络((Deep) Feedforward Neural Networks)及基于CVXOPT的相关实例
  2. java的mythread_java多线程 - myShadow - OSCHINA - 中文开源技术交流社区
  3. java责任链模式做优惠_Java设计模式菜鸟系列(十八)责任链模式建模与实现
  4. C#-微信公众平台接口-上传临时素材
  5. c#按ESC退出 或者接受其他键盘消息
  6. SQL:如何用一个sql统计出全校男生个数、女生个数以及总人数
  7. 区块链概念——学习笔记
  8. 敏捷开发_敏捷开发之看板
  9. leetcode数组相关
  10. lt;SCRIPT src=quot;../scripts/LoadWebOffice.jsquot;gt;lt;/SCRIPTgt;
  11. c语言中windows头文件,windows与linux 标准c语言头文件
  12. “我们检测到您之前将硬盘移动到新的DS3617xs。如果您要现在还原数据和设置,请单击“还原” 解决办法
  13. 【PHP实现微信公众平台开发—基础篇】第2章 微信公众账号及申请流程详解
  14. Win10小喇叭红叉叉显示未安装任何音频输出设备怎么解决?
  15. 计算机毕业设计ssm游泳馆管理平台
  16. y7000p装win10 工作站专业版,第三方驱动导致触摸板 失灵
  17. InnoDB log file 设置多大合适?
  18. Git push之后回滚
  19. matlab gui 画点,请教matlab GUI画图的问题
  20. django 套vue 模板_django-vue-suit

热门文章

  1. OpenSergo 正式开源,多家厂商共建微服务治理规范和实现
  2. 新生儿物品准备最详清单
  3. FME World tour 2016:FME Coin
  4. Js中Math常用方法
  5. 【转】百度联盟峰会 李彦宏演讲实录
  6. Android硬件加速原理与实现
  7. android cmd命令行删除文件夹,文件
  8. 透过安全事件剖析黑客组织攻击技术(2FA/MA的攻击手法)
  9. PhysX3.4文档(2) --Threading
  10. VUE—点击换一批就更换一批内容