序,语音信号的前处理

  • 1,语音数据如何转化为features?

拿到10ms的语音数据后,常会利用一定大小的window将语音数据 切分成 若干份(在语音识别中,由window生成的一份语音片段被称为frame),每份语音片段在 通过 特定的数据转换方式(如:MFCC) 转成 feature,最后 在所有这些转化后的features拼接起来 作为 最终输入model 的 input。
需要注意的是,window在移动时,其移动步长常小于 length of window,因此,有window切分的语音片段,其信息大量冗余,这也在一定程度上 加快了数据的处理速度。

  • 2,语音数据的标注方法

给定一个语音片段,直接将其内容转为文本信息,据此,获得一个 train sample。

一,语音识别模型的 输入 类型

1,直接将语音信号转为数值 作为 model 的 feature 输入模型
2,在 deeplearning 流行以前,常将 MFCC 作为 model 的 feature 输入模型,其dimension为39
3,deeplearning 得到极大发展以后,常将 filter bank output 作为 model 的 feature 输入模型,其dimension为80

由原始语音信号 到 filter bank 到 最复杂的feature MFCC 的转化 过程如下:

二,语音识别模型的输出 类型

  • 1,Phoneme:a unit of sound , 比 英文英标还要小的单位

使用Phoneme作为output,需要额外建立一个 词典,将 word 和 phoneme 对应起来,从而能根据 输出的 Phonemes 得到 对应的 word。
值得一提的是,phoneme 需要语言学的知识,phoneme词典 并没有统一的规定,因此,不同的学者 产生的 词典 不一,在使用过程中难以统一。

  • 2,Grapheme:smallest unit of a writing system

以英文为例,其组成单元为:26个英文字母,空格,标点符号。以中文为例,其组成单元为 方块字。
Grapheme存在的一个问题是:同音不同字,以英文为例,发音为/k/的字母 可能为 c 也可能 为 k,需要model 有很强的辨识能力才能准确辩时出来。
其优点在于,grapheme无需创建词典,只需将output串起来 即可得到 词。

  • 3,word

对于英文来讲,由于不同的词之间会以空格分开,因此,分词很easy,但是,在外文中,word是可以被创造的,这也意味着 vocabulary 可能需要无限延长。
对于中文来讲,词之间没有明显的分割标志,outputs 还需 近一些 分词工具 才能得到 分词结果。

  • 4,Morpheme:the smallest meaningful unit,在英文里,grapheme < morpheme <word。

举例说明:
unbreakable 可以由3个morpheme组成:un , break, able
rekillable 可以由3个morpheme组成:re, kill, able
Morpheme可以通过2种方式获得:
1)由 语言学家 给出;
2)通过 统计的方式,将那些高频出现的 pattern 作为 morpheme,但是,这种结果搜集的morpheme势必会含有一些噪音。

  • 5,Bytes:可以使用 bytes作为输出,最后将所有bytes串起来,对应到相应的vocabulary 去转为 word。

由于在计算机中,无论是 中文,英文,还是其他外文,都对应着 一串 bytes sequence(utf8),采用这种形式训练模型,可以实现真正的 language independent!



在2019年时,上述output使用情况如下表所示:

三,语音数据集

语音识别中输入输出的可能形式有哪些相关推荐

  1. 谁给讲讲语音识别中的CTC方法的基本原理?

    以下是经论智编译的原文: />CTC识别效果示意图CTC识别效果示意图 简介 谈及语音识别,如果这里有一个剪辑音频的数据集和对应的转录,而我们不知道怎么把转录中的字符和音频中的音素对齐,这会大大 ...

  2. 语音识别中的WFST和语言模型

    导读 在语音识别系统中,有限加权状态转换机(Weighted Finite State Transducers, WFST)扮演着重要角色.本文主要介绍发音词典.语言模型和WFST的原理,以及在实践过 ...

  3. 深度学习在语音识别中的声学模型以及语言模型的应用

    过去 3 年,深度学习在各个领域取得较大突破,比如计算机视觉领域的物体识别.场景分类,语音分析等,并且其技术推广和应用的速度超过人们预期,比如 Google 的广告系统已经开始使用深度学习盈利,Twi ...

  4. 语音识别中的CTC算法的基本原理解释

    原标题:语音识别中的CTC算法的基本原理解释 目前主流的语音识别都大致分为特征提取,声学模型,语音模型几个部分.目前结合神经网络的端到端的声学模型训练方法主要CTC和基于Attention两种. 本文 ...

  5. 语音识别中Chain Model的原理和实践

    导读 本文将介绍语音识别框架kaldi中提出的chain model语音识别系统,文章会先介绍HMM-DNN语音识别系统以及语音识别中的区分性训练作为铺垫知识,最后再重点介绍chain model的内 ...

  6. 走进语音识别中的WFST(一)

    本人最近在研究语音识别的生成Graph和Lattice的模块,其中用到了WFST这个概念,惊叹于它的神奇也被它的复杂搞得晕头转向.于是决定静下心来仔细研读了Mohri大牛的Speech Recogni ...

  7. 语音识别中代价函数_语音识别技术简述(概念-原理)

    目录 语音识别技术简述(概念->原理) 语音识别概念 语音识别原理 语音识别技术简介 1.动态时间规整(DTW) 2.支持向量机(SVM) 3.矢量量化(VQ) 4.隐马尔科夫模型(HMM) 5 ...

  8. [转]语音识别中区分性训练(Discriminative Training)和最大似然估计(ML)的区别...

    转:http://blog.sina.com.cn/s/blog_66f725ba0101bw8i.html 关于语音识别的声学模型训练方法已经是比较成熟的方法,一般企业或者研究机构会采用HTK工具包 ...

  9. 公开课报名 | 详解CNN-pFSMN模型以及在语音识别中的应用

    近年来,在深度学习技术的帮助下,语音识别取得了极大的进展,从实验室开始走向市场,走向实用化.基于语音识别技术的输入法.搜索和翻译等人机交互场景都有了广泛的应用. Librispeech是当前衡量语音识 ...

  10. 公开课 | 详解CNN-pFSMN模型以及在语音识别中的应用

    近年来,在深度学习技术的帮助下,语音识别取得了极大的进展,从实验室开始走向市场,走向实用化.基于语音识别技术的输入法.搜索和翻译等人机交互场景都有了广泛的应用. Librispeech是当前衡量语音识 ...

最新文章

  1. 浅谈图分析商业化的机遇与挑战,你注意到了吗?
  2. How to write an operating system
  3. 单工 半双工 全双工
  4. Android组件的使用:RadioButton
  5. python模块离线安装_离线安装db2的python模块ibm_db
  6. layui添加复选框_layui复选框使用介绍
  7. 电脑ping_Windows系统——ping打开教程
  8. 前端JS笔试面试题目
  9. ubuntu合并终端_技术|初级:如何在终端及图形界面中更新 Ubuntu
  10. Linux内核中的IPSEC实现(6)
  11. 中文版边缘计算白皮书发布,引领行业新趋势
  12. 中级通信工程师考试之六移动通信
  13. VLAN与Trunk的配置
  14. 【QGIS】无法定位程序输入点~于动态链接库~上
  15. 湖南出台不动产登记新规 “小产权房”不予办理
  16. python中outside loop_python - 如何解决 break outside loop? - SO中文参考 - www.soinside.com...
  17. fmod使用fader dsp控制音量——不影响频谱采样nice
  18. 侯捷-C++面向对象高级开发(操作符重载与临时对象)
  19. Mac下代码中文乱码问题解决方法
  20. 【STM32F4系列】【HAL库】【自制库】WS2812(软件部分)(PWM+DMA)

热门文章

  1. DB9标准的公头\母头接线定义
  2. 【项目管理一点通】(48) 项目结项
  3. 如何理解熵、交叉熵、KL散度、JS散度
  4. CAD地形图等图案填充在视口中无法正常显示
  5. 批量修改图片 *jfif 格式
  6. itextpdf 简介
  7. Java项目:springboot网上书城系统
  8. plsql以及instantclient下载安装配置使用
  9. 华为android强刷系统下载地址,华为强刷救砖卡刷包合集下载(一)共707GB
  10. 联系人存储ContactsProvider表分析