欢迎转载,转载注明出处:

http://www.cnblogs.com/NeighborhoodGuo/p/4720985.html

这一课也是请得嘉宾讲得课,据说是standford的一位博士。讲得主题是Neural Networks in Speech Recognition

不过Speech Recognition可谓是博大精深啊,这一堂课就像讲师在课前的Overview里说的一样,只是做一个perspective

让大家对这个方面有一个简要的了解,具体如何操作,这个就没有详细讲了。。。课上讲得许多model还有推荐论文里讲得一些model部分我都不太熟悉,看得我真是痛苦呀。暂且记录下部分难点和自己不了解的地方,如果以后有机会做这方面的工作,再翻出来详细研究。

课前给了个overview,然后之后的整堂课都是按照这个outline进行的,脉络清晰明了。

Speech recognition systems overview

如图所示,Speech recognition主要分为三个部分。第一个部分是Noise Reduction这个在本课中没有涉及;第二个部分是Transcription,这个是这一课的内容;第三个部分是Understanding,之前讲得所有内容都是围绕第三个部分展开的。

最后讲师推荐了一个Speech Data的Dataset名字叫Switchboard

http://www.isip.piconepress.com/projects/switchboard/

我在网上找到这样一个corpus不知道和讲师说的那个一样不一样。

HMM-DNN(Hybrid) acoustic modeling

首先为了引入HMM-DNN先介绍了一个在Speech Recognition领域曾经风靡一时的HMM-GMMs

GMMs我在看CS229的时候学过,HMM在PGM课上也看过,可是这两玩意结合起来还是看不太明白。

上面一层是HMM;下面的是计算P(x|s),根据state求对应features的概率。这一点让我有点疑惑,我们的目的是求HMM中的Hidden state,首先s都是未知的,怎么能基于它呢;其次目的是求Hidden state求P(x|s)有啥意义

继而就介绍了HMM-DNN Hybrid Acoustic Models

和HMM-GMM相比只是把Acoustic Model替换成了DNN

这个模型据说有很长时间的历史了,但是为什么它在最近才崭露头角呢?

其中一个最重要的原因是我们的计算机的速度目前足够快了,足以支撑,运行如此大的模型,并且能够跑起来多个experiments,使得进行优化成为可能。

以前的model多为单层的NN,现在的是多层的model。还有一个重要的是使用的non-linear model比之前的要好很多。

在experiment中讲师使用了名为TIMIT的dataset作为测试。

模型的层数太少不行,不能很好的捕捉到features,但是太多了也很容易overfitting性能也会下降。

在选择non-linear function的时候,rectify function在BP的时候对error的损失比较小使得它在性能方面比tanh好

两种优化DNN的方法

第一种是把普通的DNN替换成CNN,这种CNN对于失真的声音里信息的提取很优越。

第二种是把普通的DNN替换成Recurrent NN

HMM-free RNN recognition

这里把传统的sub-phone的提取转换成了Collapsing function

在单词输出的时候不再以整一个单词作为一个单位,而将单词的部分fragment作为一个单位

对于语音之间的空隙不发音的时间段,以“_”占位。

使用RNN比普通的NN Error rate下降了很多

这种model还有一个好处,就是对于corpus里没有的词汇也可以造出来。

结论

HMM-DNN是目前最好的speech recognition model

讲师最后预测不久的将来我们的所有电子设备中的Speech recognition model都会换成HMM-DNN

链接:

Speech recognition model的开源project

http://kaldi.sourceforge.net/

两个dataset:

TIMIT

http://blog.163.com/gz_aaa/blog/static/37834532201471881923177/

http://www.fon.hum.uva.nl/david/ma_ssp/2007/TIMIT/

Switchboard

http://www.isip.piconepress.com/projects/switchboard/

转载于:https://www.cnblogs.com/NeighborhoodGuo/p/4720985.html

CS224d lecture 14札记相关推荐

  1. CS224d lecture 7札记

    欢迎转载,转载请附原文地址: http://www.cnblogs.com/NeighborhoodGuo/p/4684041.html 又到了,博客时间,咳咳咳 这次lecture7的内容不太多.不 ...

  2. CS224d lecture 9札记

    欢迎转载.转载注明出处: http://blog.csdn.net/neighborhoodguo/article/details/47193885 近期几课的内容不是非常难.还有我的理解能力有所提高 ...

  3. CS224d lecture 6札记

    哈哈哈,终于又到了每课的写笔记时间.这次课程的内容比较少,可能是为了给Problem set 1空余时间吧. 废话不多说.写喽 这次的video讲的东西主要就是把推荐的论文稍微详细的讲解了一部分,然后 ...

  4. 深度学习与自然语言处理(3)_斯坦福cs224d Lecture 3

    原文作者:Rohit Mundra, Richard Socher 原文翻译:@熊杰(jie.xiong.cs@gmail.com) && @王昱森(ethanwang92@outlo ...

  5. 图形学教程Lecture 14: RayTracing1(Acceleration Radiometry)知识点总结

    课程地址:https://www.bilibili.com/video/BV1X7411F744?p=14 课件地址:https://sites.cs.ucsb.edu/~lingqi/teachin ...

  6. 深度学习与自然语言处理(2)_斯坦福cs224d Lecture 2

    原文作者:Rohit Mundra, Richard Socher 原文翻译:@熊杰(jie.xiong.cs@gmail.com) && @王昱森 内容调整与校对:寒小阳 & ...

  7. Lecture 14 Competive Analysis

  8. 机器学习基石笔记-Lecture 14 Regularization

    正则化的思想,引入的方式:想改善高阶假设空间overfitting的状况,从高阶退回低阶,即限制w的某些维度使之为零. 通过放宽限制和使用软约束(softer constraint),问题改写成: 那 ...

  9. Lecture 14:Life-long Learning

    目录 Catastrophic Forgetting 灾难性遗忘(Catastrophic Forgetting)的克服之道 Selective Synaptic Plasticity Additio ...

最新文章

  1. java非阻塞 串口读数据_串口阻塞与非阻塞
  2. 基于注解的Spring MVC(所需jar包,web.xml配置,Spring文件配置,@Controller,@RequestMapping,@RequestParam,model填参,EL取值)
  3. 联想服务器系统安装bios设置,Windows 8操作系统如何通过Legacy BIOS与UEFI两种模式安装...
  4. SpringCloud(二) 生产者、消费者工程搭建与调用(上)
  5. 面试被问项目上线没_面试官的最爱问“分布式”核心设计问题,没掌握的不妨来看看...
  6. asp.net中调用javascript自定义函数的方法(包括引入JavaScript文件)总结
  7. Linux中下载,压缩,解压等命令
  8. idea好用插件及常用开发小工具、文本编辑器(替代notepad++)合集
  9. vue-学生信息管理系统
  10. Ubuntu 12.10下用Pidgin(pidgin-lwqq)登录QQ
  11. proftpd ldap mysql_安装proftpd+ldap报错
  12. 图难于其易;为大于其细。天下难事,必作于易,天下大事,必作于细。
  13. python--绘制WRF模式近地面风场以及辐射
  14. arcgis10.2创建新站点报错无权限
  15. 【转】Downgrade iOS 4 to OS 3.1.3/3.1.2 (iPhone, iPod Touch)
  16. 对二级指针分配内存及理解
  17. 列表到字典的函数,针对好玩游戏物品清单
  18. 行为模式--子类沙箱
  19. shuffle洗牌算法java_洗牌算法shuffle
  20. shell基础+强化

热门文章

  1. 小米手机电池测试软件哪个比较好,小米的电池测试信息量很大,哪种手机续航能力强一看便知...
  2. Arduino实验十三 YFS201霍尔效应水流传感器
  3. Flutter练习:实现自定义的分页指示器
  4. 读《小强升职记》有感 时间管理
  5. html5对代码自动排版,HTML5系列:通过JS+DIV+CSS排版布局实现选项卡效果
  6. hadoop全家桶部署手册hadoop-solr-ranger-atlas-hive-hbase...
  7. bgp基础配置实验(基于环回口建立peer关系)
  8. 学校作业-Usaco DP水题
  9. Jetson Nano - 人脸识别:家门视频监控
  10. 计算机 拔电源 重启,电脑在关机就自动重新启动。但拔掉电源插头再关就又不会重新启动了。求高手帮忙!!!...