⭕⭕ 目 录 ⭕⭕

  • ⏩ 一、引言
  • ⏩ 二、动态时间规整算法基本原理
  • ⏩ 三、语音识别实例分析
  • ⏩ 四、参考文献
  • ⏩ 五、Matlab代码获取

⏩ 一、引言

在语音识别技术的发展过程中,动态时间规整算法(Dynamic Time Warping,DTW)一直处于重要地位,其本质上是一种距离度量算法。在过去的几十年中研究者们提出了几十种距离度量算法,实验证明,动态时间规整算法仍然是最佳的距离度量技术。然而,目前的各种嵌入式语音识别方案中,由于动态时间规整算法本身庞大的计算量和相邻数据处理过程中的高度依赖性极大地限制了它的实际应用,同时也使得计算资源和存储空间相对有限的嵌入式设备无法更好地发挥其性能。

⏩ 二、动态时间规整算法基本原理

动态时间规整算法是一种准确性高、鲁棒性强的时间序列相似性度量方法。通过在测试语音序列和模板语音序列之间利用规整函数建立一条非线性的弯折路径,不断对比两序列之间弯折路径的距离,距离越小,相似度越高,以此找到声学相似性最大的两个序列。

设T={t1,t2,t3,t4,t5,…,tN}和H={h1,h2,h3,h4,h5,…,hM} 分别为长度为 N 和 M 的语音序列。动态时间规整算法需要不断搜索得出一个时间规整函数C=z(n),该函数将T序列的时间轴非线性的映射到H序列的时间轴上。同时,该函数z满足公式(1):

式中,d[T(n),H(z(n))] 是序列 T 中第 n 个数据 tn和序列 H 中第 C = w(n) 个数据 hm 之间的距离度量,D 为最优时间规整情况下两个序列的累积距离。为了保证两个序列之间的搜索匹配路径具有实际意义,规整函数 z(n) 必须满足以下 3个条件:

单调性:z(n)≤z(n+1),1≤n≤N-1;

边界性:z(1)=1,z(N)=M;

连续性:z(n+1)-z(n)≤1。

根据上述3个条件,由N和M两个序列中任意两点的距离构成N×M的距离矩阵 AN×M{{A}_{N\times M}}AN×M​,其中任意两点A1、A2使用公式(2)计算其欧氏距离。

边界性是为了保证搜索路径的起点从矩阵 AN×M{{A}_{N\times M}}AN×M​的左下角(1,1)开始到右上角(N,M)结束。单调性和连续性是为了保证搜索路径的下一个方向在当前点的上方、右上方或者右方。从而在所有有效路径中找到唯一最优路径可以使累积距离最小。

为了找到唯一最优路径,动态时间规整算法采用逆序决策过程,求其任意点处累积距离,需先找出其所有满足上述 3 个条件的前序节点 ,利用公式(3)递推求得所有节点。

⏩ 三、语音识别实例分析

一个完整的基于统计的语音识别系统可大致有这样的步骤:

①语音信号预处理;

②语音信号特征提取;

③声学模型选择;

④模式匹配选择;

⑤语言模型选择;

⑥语言信息处理。

基于Matlab GUI设计的语音控制光信号等识别系统用户界面如下图所示:

图1 语音信号识别系统

语音信号“停止”,用控制台中的“黄色”来表示。

图2 语音信号识别结果(黄色对应停止的语音)

语音信号“关闭”,用控制台中的“绿色”来表示。

图3 语音信号识别结果(绿色代表语音:关闭)

⏩ 四、参考文献

[1] 温玉华.基于DTW算法的英语发音错误自动校正系统设计[J].现代电子技术,2020,43(10):124-126.
[2] 钟颖.基于DSP的语音识别系统的研究与实现[J].数字技术与应用,2017(5):48-49.
[3] 杨凡,杨迎尧,邹杰,等.基于语音识别的智能家居系统的设计与开发[J].现代信息科技,2019,3(9):164-167.
[4] 贺霄琛,韩燮,李顺增.改进的LB算法在动态手势识别中的应用[J].微电子学与计算机,2016,33(4):55-59.

⏩ 五、Matlab代码获取

上述Matlab代码,可私信博主获取


博主简介:研究方向涉及智能图像处理、深度学习等领域,先后发表过多篇SCI论文,在科研方面经验丰富。任何与算法程序科研方面的问题,均可私信交流讨论


基于动态时间规整算法(DTW)的语音识别技术研究-含Matlab代码相关推荐

  1. 动态时间规整算法DTW

    动态时间规整算法(dynamic time warping,DTW),最早由日本学者Itakura提出,用于衡量两个时间序列的相似度,也可用于将多个测试序列与标准序列对齐,从而实现序列长度的归一化. ...

  2. 动态时间规整算法——DTW

    没有做过机器学习的小伙伴们对这个算法应该不是特别的了解,因为机器学习经常会用到这个算法.再将这个算法之前,我们先看一下初中的知识点. 欧几里得距离 在讲解动态时间规整算法(Dynamic Time W ...

  3. 基于模板匹配的图像拼接技术研究-含Matlab代码

    目录 一.引言 二.模板匹配原理 三.图像融合 四.图像拼接结果 五.参考文献 六.Matlab代码(GUI界面)获取 一.引言 图像拼接是将一组具有重叠区域的图像集合拼接成一幅完整的无缝的图像的技术 ...

  4. 基于径向基函数RBF神经网络的非线性函数拟合研究-含Matlab代码

    目录 一.RBF神经网络基本原理 二.模型建立 三.RBF网络拟合结果分析 四.注意事项 五.参考文献 六.Matlab代码获取 一.RBF神经网络基本原理 1988年Broomhead和Lowe将径 ...

  5. 【语音识别】基于动态时间规整(DTW)的孤立字语音识别Matlab源码

    1 模型 2 部分代码 function trimmed_X = my_vad(x) %端点检测:输入为录入语音,输出为有用信号Ini = 0.1; %初始静默时间 Ts = 0.01; %窗的时长 ...

  6. 【图像融合】基于随机游走算法实现多焦点图像融合含Matlab代码

    1 内容介绍 近几年来,随机游走模型(random walk)与引导滤波器(guided filter)在图像处理领域受到了研究者们的广泛关注.前者已经被应用于图像处理的多种领域--图像融合.图像平滑 ...

  7. 【语音识别】基于matlab GUI动态时间规整算法(RTW)语音识别系统【含Matlab源码 341期】

    ⛄一.动态时间规整算法(RTW)语音识别 软件算法主要分为语音信号滤波去噪.预加重.分帧.端点检测.特征参数提取.模式匹配.算法的关键点和难点是特征参数提取和模式匹配.孤立词的语音识别应用程序也是基于 ...

  8. 动态时间规整算法(Dynamic Time Warping, DTW)之初探单词语音识别

    动态时间规整算法(DTW)是最近接触的一种提取时间序列模板方法.本文主要是一些自己的学习记录,并适当地加入自己的理解.若有见解不一致之处,欢迎交流. 1 动态时间规整(DTW)基本思想 先从单词语音时 ...

  9. 【语音识别】动态时间规整算法(RTW)语音识别系统【含GUI Matlab源码 341期】

    ⛄一.动态时间规整算法(RTW)语音识别 软件算法主要分为语音信号滤波去噪.预加重.分帧.端点检测.特征参数提取.模式匹配.算法的关键点和难点是特征参数提取和模式匹配.孤立词的语音识别应用程序也是基于 ...

最新文章

  1. CentOS上编译安装Nginx
  2. Linux内核链表深度分析【转】
  3. 天涯共此式 有AI月更圆
  4. python opencv图像处理程序_Python-OpenCV学习(四):基本图像处理
  5. C++ Regsvr32订购具体解释
  6. java共享内存_Java共享内存
  7. 【c++】笔记:输入带空格的字符串
  8. linux cpu mysql_Linux 指定MySQL服务运行的CPU核心(数)
  9. matlab画图分区_matlab 经典作图
  10. srp——点光源阴影的一些坑总结
  11. 论文阅读:染色归一化
  12. Android Contact分析(二):实战篇之读取联系人,模糊查询,通过汉字返回拼音
  13. 现在俏皮话越来越多了
  14. java设置手机后台进程限制_当应用程序在Android Pie上受到后台限制时启动前台服务...
  15. ICPC2019徐州区域赛 H.Yuuki and a problem
  16. 老男孩上海校区Python面试题
  17. 仿热血江湖游戏NpcClass_群攻查找范围Npc2
  18. 博主已出版的全部译作汇总
  19. java毕业设计线上办公工作流系统mybatis+源码+调试部署+系统+数据库+lw
  20. 产业创新新主流,讯众股份上榜创业黑马“新一亿中流”企业top100

热门文章

  1. php xmp,在jpeg中编写XMP元数据(使用PHP) – 使用单个或多个rdf:描述块
  2. iOS 开发怎么入门?
  3. 李航:做本质的、严谨的、有意思的研究!
  4. 模型中AIC和BIC以及loglikelihood的关系
  5. cqh-class 文件内容,类加载过程,编写第一个程序
  6. django种表单post出现CSRF verification failed( CSRF验证失败 ) 的两种解决方案
  7. 数据结构课程设计(部分选题)
  8. 【nginx】nginx的使用
  9. 阿里巴巴Java开发手册 (Alibaba Java Coding Guidelines)
  10. 元胞自动机——应用于森林火灾和传染病场景