​​

语音识别数据库、语音合成数据库是人工智能的关键技术,让机器能听会说、能像人一样的学习、理解和思考,成为人类生活和工作的得力的帮手、亲密的伴侣,一直是人类的梦想。随着近半

个世纪智能语音技术的进步和深度神经网络技术(DNN)的工程化应用,人类正不断的接近这个梦想,这个梦想也同时极大的驱动着智能语音技术的发展。最初,

人们只能让机器发出类似人的声音,比如18世纪后半叶欧洲人制造的Kempelen讲话机,它能说出有限的词和短句。经历了两个多世纪,现在的“聊天机器

人”不仅能以自然度很高的声音与人交流、还会调侃、卖萌。20世纪50年代AT&T贝尔实验室的Audry,它可以识别十个英文数字。现在,语音识别技术的自然语言识别正确率已经高于95%。

微软发布的“小冰”,和百度发布的“度秘”,再一次在人群中掀起人工智能和人机交互的热潮。

为了深刻的了解在“小冰”和“度秘”聪明伶俐、能听会说背后的秘密,记者专访了”北京海天瑞声科技有限公司”的CEO唐涤飞先生。作为国内、乃至亚洲最大的人工智能数据资源供应商,“海天瑞声”在语音合成(TTS)、语音识别(ASR)、自然语言理解(NLP)和机器翻译(MT)等技术领域的基础数据资源开发领域,积累了17年的专业经验。就智能语音基础数据资源而言,目前已经拥有116种语言、覆盖70多个国家和地区的数据资源制造能力。

小冰和度秘对人发出的指令的理解能力,比之前的语音助手表现要好很多。在百度世界大会上,面对李彦宏的种种刁难,度秘应对自如,不仅帮“厂长”在网上订

两杯拿铁,还订好了可以带宠物的餐厅,在网上团购了动画片电影票。那么,“小冰”和“度秘”能准确理解人的指令的提问背后的秘密是什么呢?

唐涤飞先生说,这是由于语音识别(ASR)技术和自然语言理解(NLP)技术的巨大创新和进步,从最初的 DNN 模型到现在的

LSTM 模型,从机器学习(ML)到深度学习(DL),每次技术创新都给用户带来了全新的体验。不仅如此,在训练语音识别引擎中所使用的基础语音语料库,也是至关

重要的因素。在设计语料时,需要专业的语言学家根据特定语言的语言学现象,全面考虑语料领域分布、应用场景分布、语料时效性等因素,同时借助相应的NLP

处理技术和标注团队来确保数据库语料池的规模和结构科学合理、音素覆盖与平衡、句意完整、语义连贯、拼写正确且易读可懂,最后再按照发音人分布、口音分

布、文本分布、音素分布、场景分布等条件通过采用相应的算法如DTW动态规则算法对发音人的文本进行抽取形成特定发音的文本。

由于口音、年

龄、教育背景和生活地区的不同,不同的人表达同一个意思、问同一个问题,甚至说同一句话,都会有细微的千差万别。比如,在智能客服应用中,机器人不仅要听懂客户的话,还要能识别客户的情绪,比如,根据其情绪是焦躁还是平静,或根据客户情绪的变化,来判断他是变得生气了,还是慢慢消气了,而采取不同的处理优

先级和反馈方式。这就涉及要在训练语料中引入情绪因素。但目前小冰和度秘还不能完全做到这一点。

据唐涤飞先生介绍,为了让“小冰”能用自然甜

美流畅的声音说话,大规模的语音合成(TTS)数据库的设计和开发,从根本性上决定了用户对她的体验。在数据库的设计上,首先要选择年龄和音质合适的发言

人,她的声音要年轻、阳光、伶俐且充满活力。其次,在数据库的设计上,要充分考虑到语言和音素的全面覆盖,语料主要来自海量的聊天对话语料。为了强调小冰

是个有情感的小姑娘,她不仅会一本正经的说话,也会生气、卖萌,因此,需要在语料设计中增加很多口语化的句子和网络用语,甚至还有网络小说里的段落。同

时,还要有常用的英语词汇、中英混合词汇、数字串、地名等专用语料。在人的自然语言中,同一句话在不同的情境里,说出来的语调和韵律是不一样的。因此,在

语料设计中,还要考虑到这些因素。如此一来,语料库的规模往往就要在上万句甚至数万句。从某种程度上说,语音合成语料库设计的失败,会极大的抵消掉语音合

成技术的进步。

从小冰和度秘这样的聊天机器人,到真正的机器伴侣,人类还有一段很长的路要走,还有许多困难需要克服。她必须能更准确的听懂并

响应对她发出的各种指令,还要能“理解”人的情绪变化和情感需要,能进行

“思考“,从而为人提供更接近于真实的人的服务,包括情感支持和慰藉。在语言表达方面,也要更接近人类的真实情感和情绪的表达,要更自然流畅。造成这种困

难的原因当然是多方面的,唐涤飞先生从其中一个方面做了解释,那就是基础数据资源的缺乏和成本居高不下。如上面所提到的,为了让聊天机器人能够尽可能的听

懂、甚至真正能“理解”人的语言和情绪,对基础数据资源设计者和开发者,就提出了更高的要求。

(文章来源:网络整理)

​​​​

语音识别数据库成为了人工智能的核心(转发)相关推荐

  1. 【人工智能】深度学习、数据库选择和人工智能的革命;人工智能是解锁IoT潜力的钥匙

    深度学习(DL)和人工智能(AI)已经不再是科幻小说中遥不可及的目标,目前已成为了互联网和大数据等领域的前沿研究内容. 由于云计算提供强的计算能力.提出的先进算法以及充裕的资金,这创造了五年前难以想象 ...

  2. 明略数据吴明辉:人工智能的核心一定是大数据

    对于很多开发人员而言,大数据应用的开发尚未上手,人工智能又已经泛滥,当前大数据公司也逐渐向人工智能靠拢.是否人工智能将成为应用的必要属性?开发人员应当如何透过现象直面技术本质并充实自身的技能?日前,明 ...

  3. 印地语自由对话语音识别数据库-200人

    数据名称:印地语语音自由对话识别数据库-200人 数据编号:King-ASR-323 数据制作:海天瑞声 数据参数:16k, 16bit 录音通道:三通道 录音平台:手机 录音时长:303小时 数据用 ...

  4. 为什么说算法不是人工智能的核心

    问题这句话实际放在人工智能这一波浪潮里面是讲的通的,但放在每一个AI项目里,又似乎不太通了.懵了?我这里详细展开讲讲. 首先讲讲人工智能浪潮的核心 当然,这波浪潮,大数据和算力爆炸是基础,但算法依然是 ...

  5. 人工智能的核心是“算法”,医生才是主角!

    在智慧医疗与AI一直都是科技榜样的机器人沃森,备受大家的关注,也是热议的话题.医生是大数据的核心,如果没有专业的医生,一切数据都是起不到专业的价值,也就是说医生+数据才是最佳的拍档.其实,人工智能只有 ...

  6. 达沃斯群英纵论人工智能,核心观点汇总

    AI科技大本营按:一年一度的世界经济论坛年会(达沃斯论坛)已经召开了3天,该论坛历年均会聚集全球工商.政治.学术.媒体等领域的领袖人物,讨论世界所面临的最紧迫问题.其中,"人工智能" ...

  7. 干货丨达沃斯群英纵论人工智能,核心观点汇总

    概要:一年一度的世界经济论坛年会(达沃斯论坛)上,来自不同领域的精英纷纷发表了自己对于人工智能的看法. 一年一度的世界经济论坛年会(达沃斯论坛)已经召开了3天,该论坛历年均会聚集全球工商.政治.学术. ...

  8. 震撼上市!北朝鲜语对话语音识别数据库

    北朝鲜语,是一种为朝鲜民族所使用的语言.值得一提的是,北朝鲜所使用的北朝鲜语与韩国所使用的韩语虽然是同一种语言,但无论是用词.发音,还是受外来语影响程度方面(北朝鲜语基本没有外来语,而韩语外来语如汉语 ...

  9. 手把手使用Android自带SQLite数据库(1)—— 建立核心文件

    SQLite是一个软件库,实现了自给自足的.无服务器的.零配置的.事务性的 SQL 数据库引擎.详细介绍参见https://www.runoob.com/sqlite/sqlite-intro.htm ...

最新文章

  1. MyBatis Mapper 文件例子
  2. X64 Linux 无法从本地字符界面登陆。
  3. 查询当前oracle字符集,查询修改oracle当前字符集-转
  4. mysql %和正则_mysql 正则模式和like模糊查询
  5. 跨线程取出控件的值的写法(不是跨线程赋予控件值)
  6. Autofac 之 基于 Castle DynamicProxy2 的 Interceptor 功能
  7. [剑指offer][JAVA]面试题第[10-1]题[斐波那契数列][动态规划][记忆化递归]
  8. html-页面结构分析
  9. php是不是面向对象编程,PHP面向对象编程入门
  10. python 加速方法_24种方法加速你的Python
  11. 运动目标检测_帧差法
  12. oeasy php,oeasy之PhotoshopCS3视频教程 - 轻松自学网
  13. markdown详细安装教程
  14. 商汤科技VS旷视科技VS依图科技(转)
  15. flash air java_Flash Air 打包安卓 ane
  16. window7 安装TortoiseGit没有git.exe 和 右键没有clone等按钮解决方法
  17. Unity3D 集成 高德地图SDK 地图
  18. 使用pycharm 通过Excel表画图
  19. 赶紧注册你的@live.xx邮箱吧!
  20. form表单提交编码介绍

热门文章

  1. PAT甲题题解-1077. Kuchiguse (20)-找相同后缀
  2. Android开发之万能适配器
  3. 实现中文下的UITableView Index
  4. Delphi常用字符串函数
  5. 怎样让百度快速收录的新方法
  6. JSK-115 单独的数字(二)【位运算】
  7. Python 标准库 —— glob
  8. C Tricks(十六)—— 复制字符串
  9. vim 打开特殊文件—— 目录以及压缩包
  10. 深度学习基础(八)—— 稀疏自编码器