现如今ASR(语音识别技术)发展到什么阶段我不清楚,但识别率肯定是达不到100%的,识别率跟你所采用的识别模型,声音样本丰富程度,和语音文件的音质有关。 如果普通话标准,且语音文件质量可以的情况下,主流的几大厂商识别结果还是比较准确的,比如手机的语音输入法,语音控制,基本上可以达到97%的准确率。 但电话的语音识别比较尴尬,基本上现在运营商的通话线路都是压缩为8000Hz的采样率,再加上现场环境噪音,网络波动影响,口音问题等等,导致电话中的语音识别准确率普遍不高。

现实问题如此,那么有没有什么办法可以提高电话中识别的准确率呢? 我有一个不太聪明的办法。

现在普遍的电话语音识别,基本上都是根据识别结果,来匹配预设的关键词。(那些所谓标榜智能电话,用到NLP技术的,我就纳闷你连基本的识别准确度都还没解决呢,谈什么NLP。)

但是电话中的诸多影响因素导致识别准确度较低。比如:

1. “您好”, “你好” 这种的还算一个意思。
2. “我在仁和”,”我在人和”,这就完全是两个地方了,但这种的发音还是一样的。
3. “我要几家”,”我要寄件”,这两个既不是同一个意思,发音也不一样了,但总归发音还是有接近之处。

针对这三种情况,我的不太聪明的办法就是:
第一种,做同义词库

第二种,转拼音来匹配

第三种,转拼音后,计算拼音相似度,根据多个词最终相似度的对比,以及不同字数的关键词设置阈值,来计算出最符合的那一个结果。

把三种方法结合后:
例如语音说: “你好,我在人和,我想要联系快递点,有很多货要寄件”。
语音识别结果: 您好,我在仁和,我想要练习,快点,有很多活,要几家

关键词: 你好,人和,快递点,寄件,

1,先根据关键词的同义词库,来匹配一遍,得出命中关键词,你好。
2,把识别结果和关键词用中文分词库来分词(有一些开源的可选),将分词后的词都转为拼音。
3,用每一个关键词去匹配识别结果的分词,根据相似度计算出一个分数。由于字数多少的关键词匹配度不尽相同,例如  “很多家” 和“恒大” 这样的三个字和两个字我们要区别对待,一般来说,如果两个关键词匹配度一样,往往字数多的那一个更加贴合实际,所以我们要给不同字数来设定一个”系数”和”阈值”,系数用来参与计算最终符合的那个词,阈值用于决定达到多少相似度才算命中关键词。 例如我们给两个字的关键词设置阈值为85, 如果最终匹配的相似度不足85,则表示没有命中该关键词,具体不同字数的关键词的阈值,需要一些样本数据来统计。
4,实际场景中,由于关键词也有优先度,例如”寄件”属于业务词,可能重要级高于”几家”,再比如”不是的”肯定比”是的”更优先,虽然”不是的”包含了”是的”,但说话的意思是前一个。所以根据词的属性,例如 疑问词,肯定词,否定词,或者按照行业特性来分类的价格词,方案词,服务词。 我们给这些不同的词配一个权重值。

那么最终一个关键词的得分是 匹配度的得分*系数*权重,最后从命中关键词中选出得分最高的,即最符合实际意思的那一个或多个词。

嘛。。。现如今,总体感觉如下:

一种不太聪明的电话语音识别方案相关推荐

  1. 一种本地和云端相结合的语音识别系统及方法与流程

    本发明涉及语音识别领域,特别是涉及到一种本地和云端相结合的语音识别系统及方法. 背景技术: 目前语音识别作为一种常用的人机交互技术,已广泛应用于各类电子产品中,以其自然方便的交互方式收到了消费者的喜爱 ...

  2. 洛克菲勒:世界上只有两种人头脑聪明...

    洛克菲勒:被人称为"石油大王".美国第一位十亿富豪与全球首富.创办芝加哥大学.洛克菲勒写给儿子的信共有38封,这些信真实记录了洛克菲勒创造财富神话的种种业绩.从这些信中我们不仅可以 ...

  3. OSChina 周五乱弹 —— 妹子太聪明思考的事情就比较多

    2019独角兽企业重金招聘Python工程师标准>>> Osc乱弹歌单(2017)请戳(这里) [今日歌曲] @美式不加奶不加糖 :@小小编辑 #毎日の歌#<那一天还未到> ...

  4. 语音识别方案 - 联想语音团队多场景实时语音文字转换方案

    [本文转载自联想乐语音论坛] 语音技术一直是人工智能的重要领域之一,其应用也日益广泛.语音技术本身也包括许多细分领域,如远场语音识别.副语言语音属性.说话人日志.声纹识别防欺骗攻击和零资源TTS等. ...

  5. IOS音视频(四十六)离线在线语音识别方案

    IOS音视频(四十六)离线在线语音识别方案 IOS音视频(四十六)离线在线语音识别方案 方案一:Siri语音识别 Siri语音识别简介 Siri语音识别功能类介绍 Siri语音识别功能集成 方案二:百 ...

  6. 2019年,这8款自动语音识别方案你应该了解!

    2019年,这8款自动语音识别方案你应该了解! 原创: AI前线小组 译 AI前线 1周前 作者 | Derrick Mwiti翻译 | 核子可乐编辑 | LindaAI 前线导读: 基于计算机的人类 ...

  7. 一种全新的点击率建模方案

    本文作者:branxu,腾讯 CDG 应用研究员 2018 年和 2019 年腾讯算法广告大赛都可以看做推荐系统问题.这类问题最重要的特征是点击率,最大的难点是冷启动.文本结合 2018 年比赛亚军方 ...

  8. 海思HI35xx语音识别方案

    前言 语音识别是智能化应用的一个重要分支,也是语音交互功能的基础.语音识别基于神经网络算法,借助大数据进行模型训练,据科大讯飞相关数据报道,它们已经能够实现98%以上的准确识别率,同时支持多种外语及国 ...

  9. dnn降噪_芯片量产已超百万,「探境科技」发布AI双麦降噪语音识别方案

    文/姜菁玲 编辑/石亚琼 12月26日,探境科技举办"黑科技发布会",正式对外公布AI语音识别芯片产品矩阵,并推出具备AI双麦降噪功能的语音识别方案--Voitist音旋风612. ...

最新文章

  1. mysql权限表整理
  2. 201521123024 《Java程序设计》 第九周学习总结
  3. 2012年的第一天 自己独自踏上回家的路 木有任何人相送
  4. escape、encodeURI 、encodeURIComponent 编码与解码
  5. java 两个窗口 贴_粘贴子窗体中的多个记录时的子窗体校准错误
  6. LeetCode 429. N叉树的层序遍历(queue)
  7. 请教哪里有M4A格式解码器
  8. Github:深度学习文本检测识别(OCR)精选资源汇总
  9. linux连接mysql_主机Navicat连接linux(虚拟机)的mysql数据库
  10. Mac 常用快捷键与操作
  11. 19 个接私活平台汇总升级版,你有技术就有钱
  12. Linux编译并更新内核(替换Linux内核)
  13. 网络协议、socket、webSocket
  14. 练习如下命令的使用: set mset get mget keys type exists ttl expire move 、select del flushdb flusha
  15. 思杰桌面虚拟化Citrix XenDesktop
  16. pyQt-GUI检测键盘操作
  17. 关于AI芯片功耗和应用的一些看法
  18. svn 撤销已经add的文件
  19. 认知空间是什么意思_为什么很多女生都是“路痴”| 男女的空间认知有什么差异...
  20. 定点补码运算c语言,单选(3分) 下列关于补码定点运算的描述中,错误的是( )...

热门文章

  1. 程序员老加班?劳动法了解一下【996就是违法犯罪】
  2. 使用labelme标注语义分割数据
  3. python表示非_Python中用于表示逻辑与、逻辑或、逻辑非运算的关键字分别为( )_学小易找答案...
  4. 游戏开发- Python语言在游戏开发中的潜力
  5. 互联神州2008年十一superCCNA
  6. 手机照片积压过万,如何用便捷的方式去整理和再度呈现?
  7. 解决MacBook Pro键盘背光不亮问题的办法
  8. 信道编码Huffman编码信息论与编码
  9. 原声html中怎么加载vue文件,HTML文件引入Vue开发
  10. SQL 怎样 远程备份数据库到本地