一、概述

在时间序列中,需要比较相似性的两段时间序列的长度可能并不相等,在语音识别领域表现为不同人的语速不同。在这些复杂情况下,使用传统的欧几里得距离无法有效求解两个时间序列之间的距离,即相识度。

引用波形图

大部分情况下,两个序列整体上具有非常相似的形状,但是这些形状在x轴上并不是对齐的。DTW的思想是把两个时间序列进行延伸和缩短,来得到两个时间序列性距离最短也就是最相似的那一个warping,这个最短的距离也就是这两个时间序列的最后的距离度量。

Warping正确性判定:直观上理解,当然是warping一个序列后可以与另一个序列重合recover。这个时候两个序列中所有对应点的距离之和是最小的。warping的正确性一般指“feature to feature”对齐,即特征对齐。

二、动态时间规整DTW

DTW是用满足一定条件的时间规整函数W(n)描述测试模板和参考模板的时间对应关系,求解两模板匹配时累计距离最小所对应的规整函数。

假设我们有两个时间序列Q和C,他们的长度分别是n和m:序列中的每个点的值为语音序列中每一帧的特征值(实际语音匹配运用中,一个序列为参考模板,一个序列为测试模板)。

Warping通常采用动态规划算法。为了对齐这两个序列,我们需要构造一个n x m的矩阵网格,矩阵元素(i, j)表示qi和cj两个点的距离d(qi, cj)(也就是序列Q的每一个点和C的每一个点之间的相似度,距离越小则相似度越高。这里先不管顺序),一般采用欧式距离,d(qi, cj)= (qi-cj)2(也可以理解为失真度)。每一个矩阵元素(i, j)表示点qi和cj的对齐。DP算法可以归结为寻找一条通过此网格中若干格点的路径,路径通过的格点即为两个序列进行计算的对齐的点。

我们把这条路径定义为Warping Path规整路径,并用W来表示, W的第k个元素定义为wk=(i,j)k,定义了序列Q和C的映射。这样我们有:

1)边界条件:w1=(1, 1)和wK=(m, n)。任何一种语音的发音快慢都有可能变化,但是其各部分的先后次序不可能改变,因此所选的路径必定是从左下角出发,在右上角结束。

2)连续性:如果wk-1= (a', b'),那么对于路径的下一个点wk=(a, b)需要满足 (a-a') <=1和 (b-b') <=1。也就是不可能跨过某个点去匹配,只能和自己相邻的点对齐。这样可以保证Q和C中的每个坐标都在W中出现。

3)单调性:如果wk-1= (a', b'),那么对于路径的下一个点wk=(a, b)需要满足0<=(a-a’)和0<= (b-b’)。这限制W上面的点必须是随着时间单调进行的。以保证图B中的虚线不会相交。

由连续性和单调性可知,每次格点(i, j)前进方向只有三种:(i+1, j),(i, j+1) 或 (i+1, j+1)。我们的目的是使得下面的规整代价最小的路径:

分母中的K主要是用来对不同的长度的规整路径做补偿。

这里我们定义一个累加距离(cumulative distances)。从(0, 0)点开始匹配这两个序列Q和C,每到一个点,之前所有的点计算的距离都会累加。到达终点(n, m)后,这个累积距离就是我们上面说的最后的总的距离,也就是序列Q和C的相似度。

累积距离γ(i,j)可以按下面的方式表示,累积距离γ(i,j)为当前格点距离d(i,j),也就是点qi和cj的欧式距离(相似性)与可以到达该点的最小的邻近元素的累积距离之和:

最佳路径是使得沿路径的积累距离达到最小值这条路径。这条路径可以通过动态规划(dynamic programming)算法得到。

三、DTW在语音中的运用

假定一个孤立字(词)语音识别系统,利用模板匹配法进行识别。这时一般是把整个单词作为识别单元。在训练阶段,用户将词汇表中的每一个单词说一遍,提取特征后作为一个模板,存入模板库。在识别阶段,对一个新来的需要识别的词,也同样提取特征,然后采用DTW算法和模板库中的每一个模板进行匹配,计算距离。求出最短距离也就是最相似的那个就是识别出来的字了。

动态规划求解相似度示例:

假设标准模板R为字母ABCDEF(6个),测试模板T为1234(4个)。R和T中各元素之间的距离已经给出。如下:

题目要计算出测试模板T和标准模板R之间的距离。因为2个模板的长度不同,所以其对应匹配的关系有很多种,我们需要找出其中距离最短的那条匹配路径。现假设题目满足如下的约束:当从一个方格((i-1,j-1)或者(i-1,j)或者(i,j-1))中到下一个方格(i,j),如果是横着或者竖着的话其距离为d(i,j),如果是斜着对角线过来的则是2d(i,j)。则得到如下dp公式:

此题采用自底向上的动态规划求解即可,如果想输出相应路径,通过回溯即可。

代码实现如下:

#include

using namespace std;

const int MAXN = 999999;

const int col = 4;

const int row = 6;

char R[] = {'A', 'B', 'C', 'D', 'E', 'F'};

int T[] = {1, 2, 3, 4};

void print(int dp[][col + 1]) {

for (int i = 1; i <= 6; ++i) {

for (int j = 1; j <= 4; ++j) {

cout << dp[i][j] << "\t";

}

cout << endl;

}

}

void printPath(int d[][col], int dp[][col + 1], int i, int j) {

if (i == 1 && j == 1) {

cout << R[i - 1] << " - " << T[j - 1] << endl;

return;

}

if (dp[i][j] == dp[i - 1][j - 1] + 2 * d[i - 1][j - 1]) {

printPath(d, dp, i - 1, j - 1);

} else if (dp[i][j] == dp[i][j - 1] + d[i - 1][j - 1]) {

printPath(d, dp, i, j - 1);

} else {

printPath(d, dp, i - 1, j);

}

cout << R[i - 1] << " - " << T[j - 1] << endl;

}

int boundaryJudge(int d[][col], int dp[][col + 1], int i, int j) {

int exp = MAXN;

if (i - 1 == 0 && j - 1 == 0) {

//起始点

dp[i][j] = 2 * d[i - 1][j - 1];

} else if (dp[i - 1][j] == MAXN) {

//位于第一行

dp[i][j] = dp[i - 1][j - 1] + 2 * d[i - 1][j - 1];

exp = dp[i][j - 1] + d[i - 1][j - 1];

} else if (dp[i][j - 1] == MAXN) {

//位于第一列

dp[i][j] = dp[i - 1][j - 1] + 2 * d[i - 1][j - 1];

exp = dp[i - 1][j] + d[i - 1][j - 1];

} else {

dp[i][j] = dp[i - 1][j - 1] + 2 * d[i - 1][j - 1];

exp = (dp[i][j - 1] > dp[i - 1][j] ? dp[i - 1][j] : dp[i][j - 1]) + d[i - 1][j - 1];

}

return exp;

}

/**

* dp[i][j] = min{ dp[i-1][j-1] + 2d[i][j]; dp[i][j] = dp[i-1][j] + d[i][j]; dp[i][j] = dp[i][j-1] + d[i][j] }

*/

void match(int d[][col], int dp[][col + 1]) {

for (int i = 0; i <= 6; ++i) {

dp[i][0] = MAXN;

}

for (int i = 0; i <= 4; ++i) {

dp[0][i] = MAXN;

}

for (int i = 1; i <= 6; ++i) {

for (int j = 1; j <= 4; ++j) {

int exp = boundaryJudge(d, dp, i, j);

if (exp < dp[i][j]) {

dp[i][j] = exp;

}

}

}

}

int main(int argc, char const *argv[]) {

int dp[row + 1][col + 1];

int d[row][col] = {{2, 1, 5, 1},

{3, 4, 8, 2},

{5, 2, 4, 3},

{4, 7, 2, 4},

{1, 5, 1, 6},

{2, 1, 7, 5}};

match(d, dp);

cout << "相似度为:" << dp[row][col] << endl;

printPath(d, dp, row, col);

return 0;

}

过几天会分享一个利用DTW做的一个孤立词识别的语音识别入门程序。

dynamic time warping matlab,Dynamic Time Warping相关推荐

  1. dynamic time warping matlab,Dynamic Time Warping 动态时间规整算法

    Dynamic Time Warping(DTW)是一种衡量两个时间序列之间的相似度的方法,主要应用在语音识别领域来识别两段语音是否表示同一个单词. 1. DTW方法原理 在时间序列中,需要比较相似性 ...

  2. 论文解读:Deep High Dynamic Range Imaging of Dynamic Scenes

    Deep High Dynamic Range Imaging of Dynamic Scenes Abstract 这篇文章介绍了一种在动态场景中,如何将不同曝光的图像进行融合从而得到高动态图像的方 ...

  3. 理解C# 4 dynamic(1) - var, object, dynamic的区别以及dynamic的使用

    一. 为什么是它们三个? 拿这三者比较的原因是它们在使用的时候非常相似.你可以用它们声明的变量赋任何类型的值. 看看下面的示例: var a = 1;object b = 1; dynamic c = ...

  4. Audyssey MultEQ、Audyssey Dynamic EQ、Audyssey Dynamic Volume使用心得

    现在AV功放很多都带有Audyssey功能,包括:Audyssey MultEQ.Audyssey Dynamic EQ.Audyssey Dynamic Volume,但是他们到底起到什么作用或者说 ...

  5. dynamic time warping matlab,动态时间规整(Dynamic Time Warping)

    本文知识简单的介绍DTW算法的目的和实现.具体的DTW可以参考一下文献: 离散序列的一致性度量方法:动态时间规整(DTW)  http://blog.csdn.net/liyuefeilong/art ...

  6. dynamic time warping matlab,科学网—【科研速记】Dynamic time warping - 李冰的博文

    DTW的作用 Dynamic time warping 简称DTW,用于计算两个时间序列之间的相似性的算法,也可以理解找到两个时间序列之间的最佳匹配.DTW最著名的用途应该是用于语音识别. Figur ...

  7. 机器人局部避障的动态窗口法DWA (dynamic window approach)-matlab代码修改及动态障碍物避障效果

    具体效果视频:[DWA动态障碍物-哔哩哔哩] https://b23.tv/pQp6ne 一.源码及问题 最初的源码链接https://blog.csdn.net/heyijia0327/articl ...

  8. Elasticsearch的dynamic 与 index.mapper.dynamic

    1. 说明 dynamic是用来设置某个type如何处理新增的字段(即字段的动态映射) index.mapper.dynamic 是用来设置是否可以动态生成type 2. 动态映射(dynamic) ...

  9. 47、Dynamic View Synthesis from Dynamic Monocular Video

    简介 主页:https://free-view-video.github.io/ 将一个单目视频作为输入(a).视频中的每一帧都是以一个独特的时间步和不同的视图(例如,黄色和蓝色帧)拍摄的.目标是在任 ...

最新文章

  1. saltstack源码安装nrpe
  2. 【CodeVS1080】线段树练习
  3. 大话设计模式(十四 设计模式不能戏说!设计模式怎就不能戏说?)
  4. linux 命令大全_干货分享:Linux命令大全
  5. Scala在挖财的应用实践
  6. ubuntu的codelite中代码运行后出现/usr/bin/codelite_exec: 22: /usr/bin/codelite_exec
  7. 一步步学习EF Core(3.EF Core2.0路线图)
  8. python列表如何修改_如何在python中更改列表的字典中的值
  9. 给出c语言的三维数组地址计算公式,要存放稀疏矩阵的元素.ppt
  10. JVM 对象引用标记 与 内存回收算法
  11. 保存自动修复_CAD小技巧:怎样将自动保存的图形复原
  12. 神经网络工具箱——nn.funtional、初始化策略
  13. php如何让图片自适应屏幕,css如何让图片自适应屏幕大小
  14. C++程序设计试题及答案解析(一)
  15. java实现数字转英文_Java实现数字转成英文的方法
  16. Android之JNI① AS3.0以下DNK下载配置和第一个JNI程序
  17. 智能操控装置在高压开关柜中的应用
  18. 牛血清白蛋白刺槐豆胶壳聚糖缓释纳米微球/多西紫杉醇的纳米微球DTX-DHA-BSA-NPs
  19. git 不abandon的办法
  20. VS2013/2015 各版本 产品密钥

热门文章

  1. Excel如何将数据重复指定次数
  2. 11-高性能JSON库——fastjson2
  3. 支持实操的量化交易接口有哪些?
  4. pytorch|图卷积神经网络(GCN)在Karate数据集的应用
  5. js 中添加php数组元素,JS数组添加元素方法总结
  6. boltzmann_推荐系统系列第7部分:用于协同过滤的Boltzmann机器的3个变体
  7. uni-app学习笔记之163邮箱自动发邮件
  8. 2019年大概率成为新零售的“前置仓”年
  9. Android启动界面SplashActivity的实现方法
  10. 游戏本自动掉帧_无线鼠标玩CS:GO会不会延迟掉帧?黑爵i305Pro双模电竞游戏鼠标入手体验...