1 soft-DTW来由

DTW 算法通过动态规划求解了两个序列的相似度。这个过程1是离散的，不可微的。如果要将其应用作为神经网络的损失函数，这是不行的。因为神经网络通过对损失函数结果进行梯度下降的方法，更新参数，要求损失函数可微。

2 符号说明

论文“A differentiable loss function for time-series”（2017 ICML）中使用了 Soft minimum 来代替 DTW minimum

对于两个序列和，我们定义代价矩阵，其中δ是可微代价函数（某一时刻x上的p维信息+某一时刻y上的p维信息——>一个实数值）【通常δ(·,·)可以用欧几里得距离】

3 soft-DTW原理

定义集合，为路径上的代价和 $r_{i,j}$ 组成的集合（从(0,0)到(i,j)的最小开销路径的cost）

如果是DTW，那么它的动态规划式子为

如1所说，由于min是一个离散的过程，不可微，所以这导致了DTW的离散。

于是Soft-DTW使用了连续的soft-min

当γ=0的时候，就是DTW，否则他就是一个可微的式子

（在max函数的平滑（log-sum-exp trick）_UQI-LIUWJ的博客-CSDN博客中，我们知道

$log(\sum_{i \in [1,n]}e^{x_i})=log(\sum_{i \in [1,n],i \ne j}e^{x_i}+e^{x_j}) \approx log(e^{x_j})=x_j=max \{x_1,\dots,x_n \}$

那么这里也是类似的

$min(a_1,a_2,\dots,a_n)=-max(-a_1,-a_2,\dots,-a_n)$

$=-log (\sum_{i \in [1,n]} e^{-a_i})$

$=-log [\sum_{i \in [1,n]} (e^\frac{{-a_i}}{\gamma})^\gamma]$

这里这篇论文做了一个近似

$\approx -log [\sum_{i \in [1,n]} (e^\frac{{-a_i}}{\gamma})]^\gamma$

也就等于了

3.1 前向传播

定义，这是一个集合，其中的每一个元素A是一个矩阵，该矩阵表示两个时间序列x和y之间的对齐矩阵（alignment matrix）

对于一个特定的对齐矩阵，A中只有在(1,1)到(n,m)路径上的点(i,j)，其 $a_{i,j}$ =1，其他点的 $a_{i,j}$ 都是0。

以DTW中出现过的图为例，那种情况下的A矩阵，在红色箭头上的(i,j)，其 $a_{i,j}$ =1，其余点的 $a_{i,j}$ 均为0DTW 笔记： Dynamic Time Warping 动态时间规整（&DTW的python实现）_UQI-LIUWJ的博客-CSDN博客

换句话说， $A_{n,m}$ 中包含了所有(1,1)到(n,m)的路径（每个路径是一个矩阵，每个矩阵只有路径上的元素为1）

于是矩阵内积<A，Δ(x,y)>表示这条路径下的代价和（非这条路径上的点乘0，这条路径上的点乘1，再求和）

于是，soft-dtw的目标函数为

3.1.1 算法伪代码

如果γ=0的时候，也就退化为了DTW，这里不同的是，我们需要关注γ＞0的情况

3.2 反向传播

soft-DTW的目的是为了计算时间序列x和时间序列y之间的动态扭曲距离，y是目标序列的话，我们反向传播计算的是对时间序列x的梯度，也即

通过链式法则，我们有

这里的分子和分母都是矩阵，所以线性代数笔记：标量、向量、矩阵求导_UQI-LIUWJ的博客-CSDN博客

也就是在我们的问题中， $\frac{\partial \Lambda_i}{\partial x_j}$ 都是一个p×m维矩阵，那么整体上是一个np×nm的矩阵（记

机器学习笔记 soft-DTW（论文笔记 A differentiable loss function for time-series）相关推荐

机器学习（十九）——PageRank算法, KNN, loss function详解
http://antkillerfarm.github.io/ PageRank算法概述在PageRank提出之前,已经有研究者提出利用网页的入链数量来进行链接分析计算,这种入链方法假设一个网页的 ...

Soft NMS论文笔记
论文:Improving Object Detection With One Line of Code. Navaneeth Bodla*, Bharat Singh*, Rama Chellappa ...

Soft Actor-Critic 论文笔记
无模型深度强化学习算法(Model-free DRL)有两个主要缺点: 1.非常高的样本复杂性(需要与环境进行大量交互产生大量样本) 2.脆弱的收敛性(它的收敛性受超参数影响严重:学习率,探索常量等等 ...

【CUDA】学习笔记(3）论文笔记：并行异构计算机调研
发表在CCF期刊上的一篇论文<Parallel programming models for heterogeneous many‐cores: a comprehensive survey&g ...

论文笔记目录（ver2.0）
1 时间序列 1.1 时间序列预测论文名称来源主要内容论文笔记:DCRNN (Diffusion Convolutional Recurrent Neural Network: Data-Dr ...

tslearn 笔记：dtw
1 介绍动态时间规整 (DTW) [1] 是时间序列之间的相似性度量. DTW 笔记: Dynamic Time Warping 动态时间规整 (&DTW的python实现)_UQI-LIU ...

论文笔记2：Deep Attention Recurrent Q-Network
参考文献:[1512.01693] Deep Attention Recurrent Q-Network (本篇DARQN) [1507.06527v3] Deep Recurrent Q-Learn ...

论文笔记 -- Communication Lower Bound in Convolution Accelerators 卷积加速器中的通信下界
论文笔记 – Communication Lower Bound in Convolution Accelerators 卷积加速器中的通信下界 @(论文笔记) 文章目录论文笔记 -- Commun ...

【论文笔记】Birthday, Name and Bifacial-security Understanding Passwords of Chinese Web Users
title: "[论文笔记]Birthday, Name and Bifacial-security Understanding Passwords of Chinese Web Users ...

最新文章

mysql 5.7 修改root 密码

NetDevOps — YANG 协议

stl-优先队列priority_queue

HMM学习(3)-Patterns generated by a hidden process

基于OpenCL的mean filter性能

2020年2月全国程序员工资统计

Ananagrams (多种stl）

struts2标签库使用小结

阿里二面：我们为什么要做分库分表？

Appium 简明教程

delphi android动态权限,Delphi XE 新功能试用：多种皮肤样式静、动态设置方法

swiper去除左右滑动设置（去除左右滑动切换）

彼得林奇PEG价值选股策略（附源码入口）

leetcode | 整数反转

2021全网最全接口测试及常用接口测试工具

Java程序员编程学习之路资源合集

collections.defaultdict

css3立方体实现方式（position+transform）

一步一步学ActionScript 2.0(六)

【数字信号处理】：线性调频信号(LFM chirp)产生-复数式余弦式

热门文章

5G商用将在“十三五”时期内启动

微软 Build 2017 开发者大会：Azure 与 AI 的快速发展

Atitit 图像处理的心得与疑惑 attilax总结

MyEclipse和tomcat结合编写jsp对于中文乱码的解决方法

mysql metadata lock(一)

冲杯咖啡，谈谈计算机cpu

策略模式的扩展——策略枚举

ESFramework网络通信框架介绍之（3）――消息处理器和处理器工厂

python 文件中出现 Indentation Error: unexpected indent 的错误

PAT甲级1054 The Dominant Color：[C++题解]哈希表、水题