欢迎大家关注我的博客 http://pelhans.com/ ,所有文章都会第一时间发布在那里~

研究词是如何通过音子(phone)的单个语言单位发出声音的。

第三讲

基于语音的文字系统表明,口语词是由言语的最小单位组合而成的,这是作为我们所有的现代音系学理论的最基础的原始理论。音系学(phonology)是语言学的一个分支,它要系统地描述音子在不同的环境中的不同实现情况,并且研究语音系统是怎样与语法的其他部分相联系的。

言语语音与语音标音法

语音学是研究用于世界语言中的语音的科学,我们把词的发音模拟为表示音子(phone)和语段(segment)的符号串。在英语研究中,常用的两种不同的字母来描述音子。第一种是国际音标(International Phonetic Alphabet, IPA)。IPA 不仅是一个字母表,它还有一套标音的原则,随着不同标音的需要而不同。另一种语音字母表叫ARPAbet符号(shoup, 1980)。它是为了给美国英语标音而特别设计的。

发音

书中给出了很多关于人体发声结构的介绍,感兴趣的可以去看。。。总结为声带合在一起病发生振动时产生的语音称为浊音(voiced),当声带不振动时产生的语音称之为清音(unvoiced)。

语音可分为辅音(consonant)和元音(vowel)两大类。这两类语音都是空气通过口腔、咽腔或鼻腔时运动而产生的。辅音产生时要以某种方式限制和阻挡气流的运动,可以是清音或浊音。而元音在产生时受到的阻挡较小,一般是浊音,比较响亮,延续时间较长。

根据阻挡的部位的不同可以吧不同的辅音区别开来。最大阻挡形成的部位称为辅音的发音部位,辅音的发音部位包含唇音、齿音、齿龈音、上颚音、软腭音、喉音等。

![](https://img-blog.csdn.net/20180419104255419?watermark/2/text/aHR0cHM6Ly9ibG9nLmNzZG4ubmV0L3BlbGhhbnM=/font/5a6L5L2T/fontsize/400/fill/I0JBQkFCMA==/dissolve/70) 辅音也可以通过气流的阻挡方式不同来区分,这样的特征称为发音方法。对于辅音来说其发音方法为: 塞音、鼻音、擦音、半元音、颤音。 类比于辅音,元音也可以通过发音部位来描述。元音有两个重要的参数:一个参数是发音时设为的高低,它大致相当于舌头最高部位所处的位置,另一个参数是发音时嘴唇的形状(圆唇或不圆唇),下图给出了不同元音的舌位。

![](https://img-blog.csdn.net/20180419104324539?watermark/2/text/aHR0cHM6Ly9ibG9nLmNzZG4ubmV0L3BlbGhhbnM=/font/5a6L5L2T/fontsize/400/fill/I0JBQkFCMA==/dissolve/70) 除此之外还有不同的元音舌位高度的图示描述,称为元音舌位图

![](https://img-blog.csdn.net/20180419104331779?watermark/2/text/aHR0cHM6Ly9ibG9nLmNzZG4ubmV0L3BlbGhhbnM=/font/5a6L5L2T/fontsize/400/fill/I0JBQkFCMA==/dissolve/70)

声音波形

下图给出[iy]的声音波形,横轴表示时间,纵轴表示空气压力程度,大于0的部分表示空气压缩,小于0的部分表示空气的释放。通常来说,讲一个声音转化为数字文件包含两个步骤:取样和量化。

信号点的取样为对信号的振幅为在特定的时间点测量。因此取样率为每秒取样的次数,举例来说对于频率为20,000Hz的波形来说,要想保证波形的不遗失,其对应的最小采样频率应为10,000Hz,称之为Nyquist frequency。常用手机的采样率为8 KHZ,麦克风的采样率为16KHz。存储采用证书存储,如8-bit或16-bit等

![](https://img-blog.csdn.net/20180419104342278?watermark/2/text/aHR0cHM6Ly9ibG9nLmNzZG4ubmV0L3BlbGhhbnM=/font/5a6L5L2T/fontsize/400/fill/I0JBQkFCMA==/dissolve/70)

频率、振幅; 音高(Pitch)、响度

对于频率、振幅、响度的介绍就不多写了,这里主要介绍音高。音高的定义为感官神经对基音频率的感知。那什么是基音频率呢?其定义为声带的震动频率简记为F0,相应的周期为基音周期。我们可以通过音高追踪来画出F0的图。在下图中处于中间位置的就是F0。

![](https://img-blog.csdn.net/2018041910434990?watermark/2/text/aHR0cHM6Ly9ibG9nLmNzZG4ubmV0L3BlbGhhbnM=/font/5a6L5L2T/fontsize/400/fill/I0JBQkFCMA==/dissolve/70) 另一个比较有用的定义为生意的强度,即dB。它的定义公式为:

![](https://img-blog.csdn.net/20180419104356106?watermark/2/text/aHR0cHM6Ly9ibG9nLmNzZG4ubmV0L3BlbGhhbnM=/font/5a6L5L2T/fontsize/400/fill/I0JBQkFCMA==/dissolve/70) 前面提到音高是根据人的感觉定义的,但研究表明人类对于声音频率的感觉并不是线性的,一般来说当处于100Hz到1000Hz之间时的音高感觉是准确的、线性的。但对于那些在1000Hz以上的部分的准确度就会降低,频率与音高的关系为对数关系。对于此有很多不同的模型来描述这种关系,一种较为常用的是梅尔刻度(Mel Scale)。梅尔频率m与原始声音频率的关系为:

![](https://img-blog.csdn.net/2018041910440256?watermark/2/text/aHR0cHM6Ly9ibG9nLmNzZG4ubmV0L3BlbGhhbnM=/font/5a6L5L2T/fontsize/400/fill/I0JBQkFCMA==/dissolve/70) 有关梅尔刻度的问题在后面的特征提取MFCC那还会继续介绍。

基音周期估计的现有方法

到目前为止,基音检测的方法大致上可以分为三类:

1)时域估计法,直接由语音波形来估计基音周期,常见的有:自相关法、并行处理法、平均幅度差法、数据减少法等;

2)变换法,它是一种将语音信号变换到频域或者时域来估计基音周期的方法,首先利用同态分析方法将声道的影响消除,得到属于激励部分的信息,然后求取基音周期,最常用的就是倒谱法,这种方法的缺点就是算法比较复杂,但是基音估计的效果却很好;

3)混合法,先提取信号声道模型参数,然后利用它对信号进行滤波,得到音源序列,最后再利用自相关法或者平均幅度差法求得基因音周期。

参考资料

[1] J+M 2nd Edition Chapter 7: Phonetics

语音识别笔记(二)计算音系学相关推荐

  1. PS学习笔记二:跟着李涛学PS第二讲——绘画与修饰工具

    本人的学习笔记是在学习李涛老师的视频的时候整理的个人学习笔记,如有侵权,请联系我删除.本人是个门外汉,整理的笔记如有错误,欢迎大家指出哦. 第二讲:绘画与修饰工具 工具栏: 前6个:移动工具组: 中间 ...

  2. 计算鬼成像学习笔记二:二阶关联函数探究

    计算鬼成像学习笔记二:二阶关联函数探究 1 一阶关联函数 2 二阶关联函数 3 二阶关联如何重构物体 4 差分鬼成像关联公式 5 归一化鬼成像关联公式 1 一阶关联函数 一阶关联函数是光场的电场强度之 ...

  3. Greedy Match学习笔记二 —— 安慰剂检验与置信区间计算

    Greedy Match学习笔记二 -- 安慰剂检验与置信区间计算 上一节我们介绍了Greedy Match的基本原理.本节中,我们将在不同样本量的情况下分别进行安慰剂检验,以验证Greedy Mat ...

  4. uniapp 学习笔记二十七 购物车总价计算及弹窗交互逻辑完善

    uniapp 学习笔记二十七 购物车总价计算及弹窗交互逻辑完善 uniapp 学习笔记二十七 购物车总价计算及弹窗交互逻辑完善 cart.vue <template><view> ...

  5. 滤波笔记二:运动模型(CVCACTRV)

    写这篇文章是因为在学习卡尔曼滤波的时候发现,只有线性运动可以用卡尔曼滤波,而非线性运动需要用到扩展卡尔曼滤波(EKF)或者无迹卡尔曼滤波(UKF).那么又发现自己不熟悉非线性运动的运动模型,所以学了一 ...

  6. 趣谈网络协议笔记-二(第七,八,九讲)

    趣谈网络协议笔记-二(第七,八,九讲) 勉励 人生而自由,却无往不在枷锁(牢笼)之中. ------卢梭@<社会契约论> 为那些有形的牢笼感到庆幸吧. 为自己出生于这个时代感到庆幸吧,因为 ...

  7. 试分别简述udp和tcp的特点_读朱红群《余姚音系简述》

    按:本文原载于<宁波师院学报>1988年第2期26-29页.因为较难见到,所以做了一点微小的工作,将其打出.侵删. 总的来说,这篇文章反映的音系与现有的记录差别倒不太大.这里声调调值的记录 ...

  8. 数据结构自学笔记二、栈

    数据结构自学笔记二.栈 栈的定义 栈的作用 栈的顺序存储与随机存储 栈的基本功能的实现 先以顺序存储结构的栈为例. 然后再说说随机存储结构的栈吧 两栈共享空间 栈的一个重要应用--四则运算 算式的后缀 ...

  9. NDK学习笔记:FFmpeg音视频同步3(你追我赶,升级ffmpeg/libyuv支持neon)

    NDK学习笔记:FFmpeg音视频同步3 本篇内容说多不多,但如果要说得明明白白的,可能就有点难度了.所以我决定把我的调试过程日志都呈现出来,方便大家理解.继上一篇文末,我们学习到了什么是DTS/PT ...

最新文章

  1. 生成朋友圈转发点赞截图的小工具
  2. 2.6_Database Interface JDBC及驱动类型
  3. internal server error怎么解决_MAC中MySQL添加my.cnf和PID file解决方案
  4. ClickHouse 详细集群部署方案
  5. instance在ceph对应pool的位置查询
  6. 【POI2011】LIZ-Lollipop 【构造】
  7. 2-路插入排序c语言算法,浅谈2路插入排序算法及其简单实现
  8. JAVA 通过串口发送命令
  9. LeetCode 357. 计算各个位数不同的数字个数(动态规划)
  10. php怎么防止爬虫,PHP语言学习之php 防止爬虫设置
  11. NGUI 3.5课程(五岁以下儿童)button-图片切换
  12. MySQL安装包下载及配置方法
  13. win10哪个版本打游戏好?win10游戏性能分析
  14. Score UVA - 1585
  15. 解决2020R2,2022R1等版本的SCDM无法编辑草图尺寸的问题
  16. android生成透明图片格式,安卓手机端制作透明图片教程
  17. vue+Gantt如何在vue中使用甘特图,绘制任务进度
  18. [报表篇] (11)设置印刷尺寸
  19. Node.js Web 模块(客户端 服务端实例)
  20. 第七章 在网页中嵌入多媒体内容

热门文章

  1. 微软预览word_如何在Microsoft Word中更改语言
  2. 【Redis】Redis 哈希 Hash 键值对集合操作 ( 哈希 Hash 键值对集合简介 | 查询操作 | 增加操作 | 修改操作 )
  3. 为什么ps里的液化工具里的部分功能用不了
  4. TINA导入Ti官网器件
  5. Java 依据文件名后缀,获取Content-Type/Mime类型
  6. SQL反模式:实体-属性-值(EAV)问题(二)
  7. 网站都变成灰色了,怎么实现的?
  8. 以 2、3……16 进制输出一无符号整型数
  9. iPhone最强悍对抗者——HTC崛起的秘密 1
  10. 不规则四边形填充平面 - Townscaper 网格生成算法复现