语音算法:CE/MMI准则
1. 什么是CE/MMI准则?
CE/MMI准则:Cross-Entropy准则和MMI准则分别是两种不同的训练方法ML(Maximum Likelihood)和DT(Discriminative Training)的常用的准则。
2. 什么是CE准则?
P(y/x)=P(x,y)P(x)=P(x/y)⋅P(y)P(x)P(y/x) = \frac{P(x,y)}{P(x)}\quad=\frac{P(x/y)\cdot P(y)}{P(x)}\quad P(y/x)=P(x)P(x,y)=P(x)P(x/y)⋅P(y)
x表示输入的语音,y表示输出的文字,根据后验概率公式,可以得到上式。 P(y/x)后验概率,P(x/y)类条件概率,p(y)先验概率。
因为深度学习基于梯度反传,常数概率对梯度没有贡献,因此先验概率P(y)可以丢弃,此时可以表示为:
P(y/x)≈P(x/y)P(x)P(y/x) \approx \frac{P(x/y)}{P(x)}\quad P(y/x)≈P(x)P(x/y)
CE准则就是舍弃P(x),此时概率公式可以表示为:
P(y/x)≈P(x/y)P(y/x) \approx {P(x/y)} P(y/x)≈P(x/y)
1. 我们这里不讨论为什么这样做,只讨论为什么这样处理是合理的?如果单纯的计算概率二者肯定不相等,但是一般情况下,当语音x,其最大概率可能的文字是y,那么反之也成立(文字y的最大可能发音是x),我们不需要保证等式成立,只要保证二者出现的概率都是最大即可(深度学习最终计算softmax,取最大概率输出)。
2.上式概率和深度学习的关系? P(x/y)就是Acoustic model。
3. 什么是MMI准则?
当考虑P(x)时:
P(y/x)≈P(x/y)P(x)=P(x/y)∑P(x/yi)P(yi)=P(x/y)∑P(x/yi)P(y/x) \approx \frac{P(x/y)}{P(x)}\quad=\frac{P(x/y)}{\sum {P(x/y_i)P(y_i)}}\quad=\frac{P(x/y)}{\sum {P(x/y_i)}}\quad P(y/x)≈P(x)P(x/y)=∑P(x/yi)P(yi)P(x/y)=∑P(x/yi)P(x/y)
一般取log最大似然估计,则:
log(P(y/x))≈log(P(x/y))−log∑P(x/yi)log(P(y/x)) \approx log(P(x/y))-log\sum {P(x/y_i)} log(P(y/x))≈log(P(x/y))−log∑P(x/yi)
第一项提供正例,第二项提供负例;训练的时候采用正负例训练。
语音算法:CE/MMI准则相关推荐
- 语音识别中的CE准则和MMI准则——内含详细参数更新过程
CE准则和MMI准则 Cross-Entropy准则和MMI准则分别是两种不同的训练方法ML和DT的常用的准则.而ML和DT训练方法的核心思想分别来自于MLE和MAP. ML(Maximum ...
- 极限元语音算法专家刘斌:基于深度学习的语音生成问题
一.深度学习在语音合成中的应用 语音合成主要采用波形拼接合成和统计参数合成两种方式.波形拼接语音合成需要有足够的高质量发音人录音才能够合成高质量的语音,它在工业界中得到了广泛使用.统计参数语音合成虽然 ...
- AI语音算法“个性”强 与芯片端“磨合”挑战多
https://www.toutiao.com/a6673008624060596740/ 与AI图像处理不同,AI语音交互算法由于在"个性"上更为强势,因此硬件芯片端在做适配与设 ...
- 在网易有道做语音算法工程师是一种怎样的体验?
鱼羊 发自 凹非寺 量子位 报道 | 公众号 QbitAI 一个成立不到两年的团队,两个初入职场的新人,杀入顶会挑战赛能拿下怎样的成绩? 时限是,10天. 近日,全球语音顶会INTERSPEECH 2 ...
- 语音算法笔记(3)——从序列建模的角度理解ASR
声明:本专栏文章为深蓝学院<语音算法:前沿与应用>课程个人学习笔记,更多学习资源请咨询深蓝学院相关课程. ASR中的序列模型 seq to seq任务的输入输出应当是不同长度,否则可以把每 ...
- ADT语音算法软件简介
一.公司背景 美国 ADT 公司(Adaptive Digital Technologies Inc.)是业界领先的语音算法和语音整体解决方案供应商(www.adaptivedigital.com), ...
- Facebook最新语音算法曝光!自监督语音识别,错误率低至2.43%
2019-11-06 15:16:55 智东西11月6日消息,Facebook近日公开自动语音识别(ASR)领域的wave2vec机器学习算法细节,可以使用原始音频作为训练数据并提高准确性. wave ...
- matlab语音算法,[转载]RLS算法多麦克风语音降噪( matlab编程 )
RLS算法多麦克风语音降噪 一.课程设计的目的 综合运用信号与系统.数字信号处理.概率论.矩阵运算的知识进行语音信号的增强,利用MATLAB作为编程工具进行计算机实现,从而加深对所学知识的理解,建立概 ...
- 【VB-01】离线语音模块,无需语音算法开发,直接嵌入式用。
目录 前言 测试方法 语音调试 AT串口调试 方案推广 总结 前言 应越来越多的小伙伴离线语音控制的需求,我们最近出了一款,VB590系列语音芯片模块--VB-01此模块支持离线语音的识别和响应,配合 ...
最新文章
- Ubuntu环境下使用gnuplot由数据表绘制曲线图
- Zxing生成二维码思路和源码解析
- bootcmd 和 bootargs 环境变量
- Qt解析XML及QTableWidget用法示例
- python和anaconda一定要对应版本安装吗_Anaconda与Python安装版本对应关系 --- 转载
- 解决 IDEA 调用其他类的时候自动加上包路径和类名的情况_惊呆了!不改一行 Java 代码竟然就能轻松解决敏感信息加解密...
- python合并数组输出重复项_python进行数组合并的方法
- JavaScript 编程精解 中文第三版 二十一、项目:技能分享网站
- GCC(-pg) profile mcount | ftrace基础原理
- linux命令界面输入不了密码,如何在 Linux 中不输入密码运行 sudo 命令
- 玩转Spring Boot 集成Dubbo
- 范式哈夫曼编码(Canonical Huffman Code)
- 用html做网页作品,HTML5实例:用HTML5制作的网页的15个优秀案例
- macOS进化史以及历代macOS系统5K壁纸
- zabbix配置web监控实现网页监控
- 利用mic visual studio 2010 编译器执行wincap获取网络适配器的代码
- 教育部司长:建议开展琴棋书画等校外培训!
- 准备离职第1天:java集合复习整理
- 7-62 贴“福”字
- DNS服务器配置:DNS服务器配置:正反解析,主从服务器,子域授权,
热门文章
- 掌财社:html5中AmazeUI框架中JS表单验证实战案例展示!
- Unet for TGS Salt Identification Challenge
- python 广告联盟跳转链接_抖音视频加入广告跳转链接怎么做?
- 服务器主机装win7系统安装,服务器主机装win7系统安装
- VAE逻辑整理及VAE在异常检测中的小实验(附代码)
- python入门(一)——你好python
- 全球首发特性,goproxy.io 支持海外私有库代理了
- python调用高德地图api_python 高德地图api
- Android 天气APP(二)获取定位信息
- 小米导航【复制即可用】