When designing features or algorithms for learning features, our goal is usually to separate the factors of variation that explain the observed data. In this context, we use the word “factors” simply to refer to separate sources of influence; the factors are usually not combined by multiplication. Such factors are often not quantities that are directly observed. Instead, they may exist either as unobserved objects or unobserved forces in the physical world that affect observable quantities. They may also exist as constructs in the human mind that provide useful simplifying explanations or inferred causes of the observed data. They can be thought of as concepts or abstractions that help us make sense of the rich variability in the data. When analyzing a speech recording, the factors of variation include the speaker’s age, their sex, their accent and the words that they are speaking. When analyzing an image of a car, the factors of variation include the position of the car, its color, and the angle and brightness of the sun.

当设计特征值或者设计特征值学习算法时,我们主要的目标是分离被观察的数据的变量因子。在这里使用了“因子”这两个字,主要是为了简单地说明起主要作用的独立角度,而不是说这些独立角度可以像乘法算式的因子那样可以直接相乘。因此,这些因子所表示的特征值,并不是直接可以观察到的特征。相反,这些因子可能存在于未曾观察到的对象里,或者无法理解的现实世界起作用的力量里。它们也许会是让人类用来对观察的数据起简化作用,或者用来对观察的数据起推断作用。它们可以被认为是概念或抽象,帮助我们了解数据的丰富变化的内容。例如在分析语音时,与之相关的变量因子就有说话者的年龄、性别、口音和所表达的内容;在分析一个汽车的图片时,与之相关的变量因子就有汽车的位置、颜色,以及太阳照射的角度和亮度。

接着下来,来了解一下语言识别的相关内容:

目前,主流的大词汇量语音识别系统多采用统计模式识别技术。典型的基于统计模式识别方法的 语音识别系统由以下几个基本模块所构成
信号处理及特征提取模块。该模块的主要任务是从输入信号中提取特征,供声学模型处理。同时,它一般也包括了一些信号处理技术,以尽可能降低环境噪声、信道、说话人等因素对特征造成的影响。 统计声学模型。典型系统多采用基于一阶隐马尔科夫模型进行建模。 发音词典。发音词典包含系统所能处理的词汇集及其发音。发音词典实际提供了声学模型建模单元与语言模型建模单元间的映射。 语言模型。语言模型对系统所针对的语言进行建模。理论上,包括正则语言,上下文无关文法在内的各种语言模型都可以作为语言模型,但目前各种系统普遍采用的还是基于统计的N元文法及其变体。 解码器。解码器是语音识别系统的核心之一,其任务是对输入的信号,根据声学、语言模型及词典,寻找能够以最大概率输出该信号的词串。 从数学角度可以更加清楚的了解上述模块之间的关系。首先,统计语音识别的最基本问题是,给定输入信号或特征序列,符号集(词典),求解符号串使得:
W = argmaxP(W | O) 通过贝叶斯公式,上式可以改写为
由于对于确定的输入串O,P(O)是确定的,因此省略它并不会影响上式的最终结果,因此,一般来说语音识别所讨论的问题可以用下面的公式来表示,可以将它称为语音识别的基本公式。 W = argmaxP(O | W)P(W)
从这个角度来看,信号处理模块提供了对输入信号的预处理,也就是说,提供了从采集的语音信号(记为S)到 特征序列O的映射。而声学模型本身定义了一些更具推广性的声学建模单元,并且提供了在给定输入特征下,估计P(O | uk)的方法。
为了将声学模型建模单元串映射到符号集,就需要发音词典发挥作用。它实际上定义了映射的映射。为了表示方便,也可以定义一个由到U的全集的笛卡尔积,而发音词典则是这个笛卡尔积的一个子集。并且有:
最后,语言模型则提供了P(W)。这样,基本公式就可以更加具体的写成:
对于解码器来说,就是要在由,,ui以及时间标度t张成的搜索空间中,找到上式所指明的W。
语音识别是一门交叉学科,语音识别正逐步成为信息技术中人机接口的关键技术,语音识别技术与语音合成技术结合使人们能够甩掉键盘,通过语音命令进行操作。语音技术的应用已经成为一个具有竞争性的新兴高技术产业。
与机器进行语音交流,让机器明白你说什么,这是人们长期以来梦寐以求的事情。语音识别技术就是让机器通过识别和理解过程把语音信号转变为相应的文本或命令的高技术。语音识别是一门交叉学科。近二十年来,语音识别技术取得显著进步,开始从实验室走向市场。人们预计,未来10年内,语音识别技术将进入工业、家电、通信、汽车电子、医疗、家庭服务、消费电子产品等各个领域。语音识别听写机在一些领域的应用被美国新闻界评为1997年计算机发展十件大事之一。很多专家都认为语音识别技术是2000年至2010年间信息技术领域十大重要的科技发展技术之一。

1. TensorFlow API攻略

http://edu.csdn.net/course/detail/4495
2. TensorFlow入门基本教程
http://edu.csdn.net/course/detail/4369

3. C++标准模板库从入门到精通

http://edu.csdn.net/course/detail/3324

4.跟老菜鸟学C++

http://edu.csdn.net/course/detail/2901

5. 跟老菜鸟学python

http://edu.csdn.net/course/detail/2592

6. 在VC2015里学会使用tinyxml库

http://edu.csdn.net/course/detail/2590

7. 在Windows下SVN的版本管理与实战

http://edu.csdn.net/course/detail/2579

8.Visual Studio 2015开发C++程序的基本使用

http://edu.csdn.net/course/detail/2570

9.在VC2015里使用protobuf协议

http://edu.csdn.net/course/detail/2582

10.在VC2015里学会使用MySQL数据库

http://edu.csdn.net/course/detail/2672

MIT的《深度学习》精读(17)相关推荐

  1. 深度学习(17)TensorFlow高阶操作六: 高阶OP

    深度学习(17)TensorFlow高阶操作六: 高阶OP 1. Where(tensor) 2. where(cond, A, B) 3. 1-D scatter_nd 4. 2-D scatter ...

  2. 2020-4-5 深度学习笔记17 - 蒙特卡罗方法 3 ( 马尔可夫链蒙特卡罗方法MCMC-先验分布/后验分布/似然估计,马尔可夫性质)

    第十七章 蒙特卡罗方法 中文 英文 2020-4-4 深度学习笔记17 - 蒙特卡罗方法 1 (采样和蒙特卡罗方法-必要性和合理性) 2020-4-4 深度学习笔记17 - 蒙特卡罗方法 2 ( 重要 ...

  3. 深度学习(17)—— 度量学习

    深度学习(17)-- 度量学习 文章目录 深度学习(17)-- 度量学习 一.What? 二.paired-based loss 1. Contrastive loss 2. Triplet loss ...

  4. MIT警告深度学习正在逼近计算极限,网友:放缓不失为一件好事

    机器之心报道 参与:魔王.杜伟 MIT的一项研究认为,深度学习正在逼近算力极限. 深度学习需要大量数据和算力,这二者的发展是促进这一次人工智能浪潮的重要因素.但是,近期 MIT 的一项研究认为,深度学 ...

  5. MIT警示“深度学习过度依赖算力”,研究三年算法不如用10倍GPU

    2020-09-18 14:11 导语:深度学习会被算力锁死么?顶层设计仍有希望 作者 | 蒋宝尚.青暮 编辑 | 丛  末 目前深度学习的繁荣过度依赖算力的提升,在后摩尔定律时代可能遭遇发展瓶颈,在 ...

  6. MIT探索深度学习网络的基础理论

    点上方蓝字计算机视觉联盟获取更多干货 在右上方 ··· 设为星标 ★,与你不见不散 仅作学术分享,不代表本公众号立场,侵权联系删除 转载于:机器之心 AI博士笔记系列推荐 周志华<机器学习> ...

  7. MIT最新深度学习入门公开课

    作为顶尖学府,MIT 自然有不少优秀的公开课.但是他们并没有停下开源的脚步.一月底,MIT 6.S191:深度学习导论课程已开始授课了.每周更新一次课程视频,还提供了 PPT 和 Lab Sessio ...

  8. 深度学习——02、深度学习入门 1-7

    01深度学习与人工智能简介 什么是人工智能? 观察周围的世界,把看到的事物加以理解,最后通过理解进行一系列的决策. 感知+理解+决策. 学习的能力,是智能的本质! 大数据时代 大数据时代造就了人工智能 ...

  9. 【课程】MIT最新深度学习课程集

    来自Lex Fridman的AI 课程 updata:20181219 这一课程中包含了深度学习,深度强化学习,自动驾驶以及人工智能通识课. 大牛云集的人工智能通识课: 可以在这里找到邮件列表登记: ...

  10. 深度学习基础17(感知机,结合非线性函数来构建具有更强表达能力的多层神经网络架构)

    多层感知机 隐藏层 softmax回归的模型架构通过单个仿射变换将我们的输入直接映射到输出,然后进行softmax操作. 如果我们的标签通过仿射变换后确实与我们的输入数据相关,那么这种方法确实足够了. ...

最新文章

  1. 日记 [2007年04月05日]QMAIL服务器回顾
  2. python基础入门:while 循环
  3. asp.net 检测访问者是iphone,android,web(摘录)
  4. sql backup database备份d盘_SQL数据库备份概述
  5. mysql 同一字段分别统计,mysql查询同一个字段根据不同值分组成不同列统计
  6. go mysql delete_go 操作mysql、增删改查
  7. Unity Transform bug
  8. L2-004 这是二叉搜索树吗? (25分)*
  9. 七牛云智能日志管理平台的应用与设计
  10. Ubuntu系统打不开windows磁盘文件
  11. 2009个人年度总结报告
  12. 哥德巴赫猜想 php,哥德巴赫猜想的程序验证
  13. 国家也补贴?有华为认证证书的你,就能拿它(附详细操作)
  14. windows10安装keras教程
  15. Unity给模型添加逼真效果材质
  16. 【docker问题】Client.Timeout exceeded while awaiting headers
  17. 分支语句和循环语句(分支语句)
  18. 动网三部曲(二)dvbbs7.0sp2后台权限提升
  19. 使用 Charles 简单解决微信开发者工具网络连接失败的问题
  20. BAT54C代替1n4148的思考

热门文章

  1. [WOJ1583]向右看齐
  2. Python数据分析 读书笔记
  3. 极客Go云监工 --- 开源前序
  4. Geometry理解
  5. python的invalid syntax是什么意思_python 中 出现 invalid syntax 是什么意思 我是新手 求告知。...
  6. 【C语言】*p++与(*p)++的区别
  7. Google财经香港版上线,香港路演
  8. eeprom的wp 引脚_24C04WP 数据手册 PDF - EEPROM - ST - DataSheet5.cn
  9. 美国只是个傀儡 真正的对手是黑暗帝国
  10. 一步步学习zynq软硬件协同开发(AX7010/20)【FPGA+ReWorks】:创建自定义IP实现rtc读写