【IT168 评论】我一直认为,人工智能应用的大前提是可以很自然的进行人机语言交互。近年来,在深度学习的驱动下,语音技术取得了重大进展,语音云用户规模达到了亿级规模,每日请求千万次,并且交互技术由单一平台向云平台发展。

与此同时,理解算法体系的发展,已经实现了集词法分析、句法理解、意图分类及句子语以度量的一体化语义理解算法体系。在这样的根基下,以问答和聊天为服务形势,智能语音语以在多个使用场景和行业领域都得到了广泛应用,大体可以分为TO C端和TO B端两个方向。

变革交互方式 需求和体验是关键

在C端应用方面,主要用于移动设备、汽车、家具三大场景,用来变革原有人机交互方式;B端则针对垂直行业需求,提升人工效率,比如帮助医生做电子病历录入,或代替部分人力工作,比如回答大部分简单重复的客服问题。由于两大领域解决的问题不同,因此遇到的挑战也各有不同。

在第九届中国系统架构师大会上,中国科学院特聘研究员陶建华谈到,智能语音为C端提供了一种全新的交互方式,但应用和普及又跟具体场景和需求挂钩。目前,三大场景中,移动设备中的智能手机,以及车内语音交互应用最为广泛。家具领域中,虽然各种家电企业也在广泛布局,但实际使用情况并不理想。

第九届中国系统架构师大会现场

陶建华谈到,智能语音语义在智能手机和可穿戴设备中的应用不尽相同。可穿戴设备虽然没有屏幕或屏幕较小,更适合语音语义交互,但大多都是非生活必须品,本身销量就很有限,再加上一些可穿戴设备并没有太多交互需求,因此实际应用量较小。

智能手机中的各类应用软件大多都配备了语音功能,但相比触摸和文字交互,使用率也不算高。很多人仍然没有经常使用语音的习惯,或者还没有使用语音的意识。究其原因,主要由于语音交互在效果和效率上都不够理想。

在汽车领域,由于人在车内双手和双眼被占用,而需求又十分明显,因此智能语音成了这一场景下最合适的交互方式。

智能语音在车诶的应用主要以车载导航为主,辅以查询和用车。对于业界热炒的“以语音为入口连接各种服务,从而构建车联网生态”的畅想,目前看来还距离较远。核心困难在于,整个行业尚未找到车内场景下用户的刚性、高频需求。或许等到自动驾驶汽车普及之后,人的双手双眼以及大脑解放出来,才有条件搭建包含各种服务的车内生态。

陶建华总结到,对于涉足汽车领域的语音企业来说,当前最重要的是,把导航等刚性需求等体验做到位,再去考虑如何延伸服务。

在家居领域,由于亚马逊Echo的面世,带动了语音交互在家居领域应用的热炒。从2014年下半年至今。Alexa平台应用数从最初20多个增加到7000多个,并在过去半年内,以每月1000个左右的速度增加。据CIRP报告估计,截至2016年11月,Echo累计销量超过510万台,2016年Q1~Q3共销售约200万台,较前三季度增长18%。

当然,除了音箱、台灯等小家电智能产品,家用机器人也成了创业者争相押注的对象,拟生物形态智能产品的火热,某种程度上承载着人类对于机器人的美好愿景,但创业者还是要从价值和实用性角度考量其产品形态的设计逻辑,最终哪种形态的智能产品会笑到最后,还得市场说了算。

提升效率、解放人力、深耕垂直行业是根本

在TO B端,智能语音语义的应用主要集中于客服、教育、医疗、旅游等领域。

陶建华谈到,由于客服问题主要聚集在待定产品或单一垂直领域,因此需要企业拥有完整的结构化知识库,帮助机器人更好地查询和匹配问答内容。目前,按照行业平均水平,机器人客服可以解决70%左右问题,其余由人工处理。

在教育领域,智能语音的价值体现在,一方面在于提高教师工作效率,另一方面在于帮助学生提升学习效果。通过大量语音数据的积累,并和后端大数据分析、机器学习相结合,智能语音有望在机器辅助学习和自适应学习方面发挥重大作用,为教育行业带来颠覆性变革。

中国科学院特聘研究员陶建华

在医疗领域,由于专业性强,识别难度高,国外语音巨头Nuance最早主要通过后台人工撰写,而随着语音识别技术有了突破性进展,国内智能语音在医疗领域的应用也开始起步,科大讯飞和云知声是该领域的典型代表。

在金融领域,由于金融行业带有明显的客户服务属性,加上完整而庞大的企业及数据积累,因此成为智能语音语义的重要应用阵地。当然,一些商业银行已经通过使用语音识别技术实现了语音导航、语音交易、业务办理等基础服务。

除了上述几个领域,智能语音语义技术也逐渐渗透到安防、旅游、法律等行业,在效率效果提升,解放人力等方面发挥了越来越重要的作用。

语音语义技术面临的问题

尽管目前语音语义技术的应用已经非常广泛,但问题和挑战也接踵而来。陶建华谈到,从语音识别与合成技术突破,到语音云平台和语音助手,再到语音交互获大规模使用,依然存在一些难点。

其中包括多局限在朗读语音、方言和多语音处理不够强、受语音声学模型制约、多通道语音理解有待提高等。这里面包括的关键科学问题包括,语音声学层面信号精确模拟和认知机理、灵活的个性化自适应和模糊情感处理、自然口语中多遇道融合机制和多空间映射关系。

最重要的一点,情感的识别,很大程度决定了语音识别的准确性。陶建华谈到,CASIA情感识别系统,是目前在国际上较早的实现了面向电信领域的情感语音识别商用系统,识别精度性超过80%。另外,很多人认为,多语音只需要将语音的模型在不同语言上进行训练即可,没有多少科学道理,但是不同语言的确会带来很多新的挑战。

尽管摆在语音识别技术前的挑战还有很多,但在社会各界的努力下,语音识别已经迎来了热潮,国家网信办、公安厅、360、百度、阿里云、腾讯等机构、企业已经率先应用,未来更有全民普及之势。

▲更多信息尽在IT168现场报道专题

http://sacc.it168.com/topic2017/

一文读懂语音语义识别技术的现状与未来相关推荐

  1. 一文读懂5G基站节能技术

    文章版权所有,未经授权请勿转载或使用 近年来,全球运营商营收整体不断下滑,OPEX支出却不断增加,其中基站电费在网络运营支出中占比超30%.5G基站由于更大的带宽.更多的通道数.器件集成度低等因素影响 ...

  2. 一文读懂TOF深度相机技术原理--TI-Tintin-OPT8241二次开发和应用系列--Theory Level

    一文读懂TOF深度相机技术原理--TI-Tintin-OPT8241二次开发和应用系列--Theory Level 转载请附上出处,本文链接:https://www.cnblogs.com/pans0 ...

  3. 儿童医疗保健生物识别技术市场现状及未来发展趋势分析

    2022-2028年全球与中国儿童医疗保健生物识别技术市场现状及未来发展趋势分析报告 报告编号:1640445 免费目录下载:http://www.cninfo360.com/yjbg/quanqiu ...

  4. 一文读懂智能网联封闭测试场的现状和挑战

    文章版权所有,未经授权请勿转载或使用 智能网联封闭测试场应具备全覆盖.低延时的路侧通信设备,支持LTE-V2X.5G.Wi-Fi等协议.可进行三个级别测试:L1和L2级自动驾驶的ADAS系统测试:L3 ...

  5. 一文读懂3D人脸识别十年发展及未来趋势

    来源丨机器之心 人脸识别是机器学习社区研究最多的课题之一,以 3D 人脸识别为代表的相关 ML 技术十年来都有哪些进展?这篇文章给出了答案. 近年来,人脸识别的研究已经转向使用 3D 人脸表面,因为 ...

  6. 一文读懂UWB超宽带技术

    文章目录 一.简介 二.什么是UWB技术? 三.UWB技术有标准组织吗? 四.UWB技术有哪些应用场景? 五.UWB市场有多大? 六.总结 一.简介 "指哪打哪",在球场上经常被用 ...

  7. 一文读懂自动驾驶汽车:软硬结合 造就未来出行体验(下篇)

    在上篇,我们回顾了自动驾驶汽车的发展历史,介绍了自动驾驶汽车的工作原理.得益于 AI 技术的突破,自动驾驶汽车飞速发展,运算速度也从 2007 年的 230 FLOPS 跃升至 2022 年的 254 ...

  8. 声纹识别技术发展现状及未来五大发展趋势

    走出实验室的声纹识别技术因其广阔的应用场景和价值,从特定领域到民用领域,在国内外正迎来第一波商用化浪潮. 而与此同时,关于声纹识别技术研究的成熟度以及安全可靠性,一直是应用领域讨论的重点,本文基于时下 ...

  9. 一文读懂命名实体识别

    本文对自然语言基础技术之命名实体识别进行了相对全面的介绍,包括定义.发展历史.常见方法.以及相关数据集,最后推荐一大波 Python 实战利器,并且包括工具的用法. 01 定义 先来看看维基百科上的定 ...

最新文章

  1. 技术扫盲:关于低代码编程的可持续性交付设计和分析
  2. asp.net 中ListBox 显示 2 列
  3. 如何在word写小论文在正文分栏后第一页左下角添加 项目 基金 作者简介 (添加通栏脚注)
  4. Xamarin 从零开始部署 iOS 上的 Walterlv.CloudKeyboard 应用
  5. Linux学习总结(79)—— Shell 编程规范
  6. 20171026_Python学习第二周四次课
  7. php高德地图计算距离接口,高德地图计算两坐标之间距离
  8. 【2016北京集训测试赛(七)】自动机 (思考题)
  9. 每周收获(11-13)
  10. R语言入门——rep函数
  11. 如何将pdf转化成word文档呢?
  12. python编写简易木马程序_python简易木马编写
  13. 计算机应用中英文缩写ai表示,2014年全国计算机等级一级考试题库
  14. 加密狗是什么?一次性给您说全加密狗的概念
  15. c语言程序数列问题,数列 (C语言代码)
  16. 看了它--你也能轻松部署vue3组件库
  17. Java实例类中的切面_Spring进行面向切面编程的一个简单例子
  18. chromium内核edge浏览器开启多线程下载
  19. STC89C52RC软件IIC驱动
  20. 11.面向对象设计笔记

热门文章

  1. EasyUI:获取某个dategrid的所有行数据
  2. 小组互评Alpha版本
  3. BZOJ 2733: [HNOI2012]永无乡 启发式合并treap
  4. android 代码混淆配置
  5. UVA10738 Riemann vs Mertens【欧拉筛法】
  6. UVA12279 LA4853 Emoogle Balance【水题】
  7. UVA465 Overflow【大数】
  8. JSK-9 元素移除【入门】
  9. ubuntu 源、codename 与 sources.list 文件
  10. 私有成员变量理解的补充