谢邀

——————————————————

首选是CTC,这里有一篇文章写的很好,很细致,可以学习一下,附上原文链接:https://xiaodu.io/ctc-explained/​xiaodu.io

1.CTC背景

CTC由Alex Graves等人在ICML 2006上提出来,目的是实现RNN直接对序列数据进行学习,而无需事先标注好训练数据中输入序列和输入序列的映射关系,使得RNN模型在语音识别等序列学习任务中取得更好的效果。

2.CTC原理

CTC算法全称叫:Connectionist temporal classification。从字面上理解它是用来解决时序类数据的分类问题。

传统的语音识别的声学模型训练,对于每一帧的数据,需要知道对应的label才能进行有效的训练,在训练数据之前需要做语音对齐的预处理。而语音对齐的过程本身就需要进行反复多次的迭代,来确保对齐更准确,这本身十分耗时。 />

图1 “你好”发音的波形示意图

如图1所示,是“你好”这句话的声音的波形示意图, 每个红色的框代表一帧数据,传统的方法需要知道每一帧的数据是对应哪个发音音素。比如第1,2,3,4帧对应n的发音,第5,6,7帧对应i的音素,第8,9帧对应h的音素,第10,11帧对应a的音素,第12帧对应o的音素。(这里暂且将每个字母作为一个发音音素)

与传统的声学模型训练相比,采用CTC作为损失函数的声学模型训练,是一种完全端到端的声学模型训练,不需要预先对数据做对齐,只需要一个输入序列和一个输出序列即可以训练。这样就不需要对数据对齐和一一标注,并且CTC直接输出序列预测的概率,不需要外部的后处理。

既然CTC的方法是关心一个输入序列到一个输出序列的结果,那么它只会关心预测输出的序列是否和真实的序列是否接近(相同),而不会关心预测输出序列中每个结果在时间点上是否和输入的序列正好对齐。 />

图2 ctc预测结果示意图

CTC引入了blank(该帧没有预测值),每个预测的分类对应的一整段语音中的一个spike(尖峰),其他不是尖峰的位置认为是blank。对于一段语音,CTC最后的输出是spike(尖峰)的序列,并不关心每一个音素持续了多长时间。

如图2所示,拿前面的nihao的发音为例,进过CTC预测的序列结果在时间上可能会稍微延迟于真实发音对应的时间点,其他时间点都会被标记会blank。

这种神经网络+CTC的结构除了可以应用到语音识别的声学模型训练上以外,也可以用到任何一个输入序列到一个输出序列的训练上(要求:输入序列的长度大于输出序列)。

比如,OCR识别也可以采用RNN+CTC的模型来做,将包含文字的图片每一列的数据作为一个序列输入给RNN+CTC模型,输出是对应的汉字,因为要好多列才组成一个汉字,所以输入的序列的长度远大于输出序列的长度。而且这种实现方式的OCR识别,也不需要事先准确的检测到文字的位置,只要这个序列中包含这些文字就好了。

参考链接:

————————————————————————————————————————

想了解更多语音技术请关注“语音杂谈”微信公众号,也欢迎关注本公司微信公众号“希尔贝壳”。AISHELL开源数据、更多干货等你来拿。

目前效果最好、应用较广且比较成熟的语音识别模型是什么?相关推荐

  1. 最全模型效果评估报告上线,百度飞桨企业版EasyDL助力模型效果快速优化

    近些年深度学习持续发展,在视觉.自然语言处理.语音等各个技术方向都诞生了创新智能应用,例如智能识别医疗图像中的病灶,辅助医生做病情诊断:智能判别生产线上有质量问题的产品,减轻人工质检压力:对政务.金融 ...

  2. 效果广告点击率预估实践:在线学习

    效果广告点击率预估实践:在线学习 原创 2016-03-24 腾讯大数据 腾讯大数据 1.引言 技术钻研如逆水行舟,不进则退.公司的广告业务发展非常迅猛,有目共睹,激烈的外部竞争和客户越来越高的期望, ...

  3. AI手语主播通过朱广权魔鬼面试,残影级手速无惧贯口,今已正式上岗助力冰雪盛会...

    本文经ai新媒体量子位(公众号 id:qbitai)授权转载,转载请联系出处 本文约3000字,建议阅读10+分钟 24小时为你提供手语解说. 什么样的手语主播能跟朱广权battle得有来有回? 话不 ...

  4. 效果提升7%、速度增加220%,OCR开源神器PaddleOCR再迎升级

    论文地址:https://arxiv.org/abs/2109.03144 项目地址:https://github.com/PaddlePaddle/PaddleOCR 从效果上看,PP-OCRv2 ...

  5. 中小型企业开展网站关键词优化,怎样才能达到理想优化效果?

    在网站优化工作中关键词才是优化过程中的头等大事,然而在搜索引擎的优化效果实际上也会受到关键词的影响,那么对于网站优化过程当中关键词的这一层面上,我们应该如何提升优化能力以达到预计中的网站优化效果呢?下 ...

  6. 换脸效果媲美GAN!一文解析OpenAI最新流生成模型「Glow」

    在碎片化阅读充斥眼球的时代,越来越少的人会去关注每篇论文背后的探索和思考. 在这个栏目里,你会快速 get 每篇精选论文的亮点和痛点,时刻紧跟 AI 前沿成果. 点击本文底部的「阅读原文」即刻加入社区 ...

  7. 动手深度学习13——计算机视觉:数据增广、图片分类

    文章目录 一.数据增广 1.1 为何进行数据增广? 1.2 常见图片增广方式 1.2.1 翻转 1.2.2 切割(裁剪) 1.2.3 改变颜色 1.2.4 综合使用 1.3 使用图像增广进行训练 1. ...

  8. AI时代的视频云转码移动端化——更快、更好,更低,更广

    编者按: AI技术的落地是渐渐地从服务器端.云端落地,逐步到移动端及边缘设备上.这些年随着AI技术的进步,轻量级算法模型开始在移动端实时跑起来,并且移动端算法也在不断进行迭代和完善,而对于实时直播场景 ...

  9. AI 时代的视频云转码移动端化,更快、更好、更低、更广

    编者按:AI技术的落地是渐渐地从服务器端.云端落地,逐步到移动端及边缘设备上.这些年随着AI技术的进步,轻量级算法模型开始在移动端实时跑起来,并且移动端算法也在不断进行迭代和完善,而对于实时直播场景, ...

最新文章

  1. centos 下安装mysql,linux(Centos7)下安装mysql8.0.18的教程图解
  2. Android5.0如何正确启用isLoggable(二) 理分析
  3. svn 目录结构 trunk java_如何彻底删除SVN中的文件和文件夹(附恢复方法)
  4. seaborn可视化散点图并自定义图像的标题(title)以及自定义标题的字体大小(Set a Title to a Seaborn Plot)
  5. 【转】ASP.NET AJAX入门系列
  6. ygm900常用网站
  7. 苹果7信号天线内部位置_新专利显示未来Apple Watch Wi-Fi及无线天线或将嵌入显示屏中...
  8. 程序组件通信方案集锦
  9. 设计模式C++实现(5)——原型模式
  10. SQLServer2005出了点怪事~(应该是编码问题~)
  11. Android NDK调试出错Unknown Application ABI, Unable to detect application ABI#39;s的解决方式...
  12. java web 数据库操作_Java Web----Java Web的数据库操作(二)
  13. java string is empty_Java中String类的isEmpty方法、null以及的区别
  14. c语言双人贪吃蛇小游戏代码,关于C 双人贪吃蛇显示的问题
  15. 将电脑文件夹内的文件名批量导入到Excel表格中
  16. 苹果开发者账号网页版续费失败支付报错解决办法
  17. 微信小程序:map组件所在页面加载慢,长时间白屏的问题
  18. 徐直军、何小鹏等大咖加盟,2021互联网岳麓峰会即将重磅开幕
  19. AMM和ASMM理解
  20. Java EE 期末复习提纲【太原理工大学】

热门文章

  1. java设计模式--简单工厂模式
  2. Git Diff 魔法
  3. java创建对象方法列表(转)
  4. [命令模式]在游戏开发中的应用
  5. HDU1248 寒冰王座【0/1背包+DP】
  6. Bailian3195 最大公约数【数论】
  7. POJ NOI MATH-7826 分苹果
  8. CCF201409-2 画图(100分)
  9. 可视化 —— 在线图形绘制
  10. 数据可视化 —— 数据流图(Data Flow Diagram)