熵（续）

信息熵

信息熵和热力学熵的假设相同，因此有类似结论不足为奇，毕竟数学上都是同一个微分方程。

信息熵：编码方案完美时，最短平均编码长度的是多少。

交叉熵：编码方案不一定完美时（由于对概率分布的估计不一定正确），平均编码长度的是多少。平均编码长度=最短平均编码长度+一个增量

H(p,q)=−∑xp(x) log⁡q(x)H(p, q) = -\sum_x p(x)\, \log q(x)H(p,q)=−x∑p(x)logq(x)

相对熵：编码方案不一定完美时，平均编码长度相对于最小值的增加值。（即上面那个增量）

DKL(P∥Q)=−∑iP(i) log⁡Q(i)P(i)D_{\mathrm{KL}}(P\|Q) = - \sum_i P(i) \, \log\frac{Q(i)}{P(i)}DKL(P∥Q)=−i∑P(i)logP(i)Q(i)

参考：

https://www.zhihu.com/question/41252833

如何通俗的解释交叉熵与相对熵?

复变函数

1.复球面表示。

2.条件严格性。

点域：连续<可导（可微）<可解析

区域：连续<可导（可微）=可解析

由于复平面的存在，极限z→z0z\to z_0z→z0中，趋向于点z0z_0z0的路径有无穷多种，必须所有路径的极限都存在且一致，才可以说极限z→z0z\to z_0z→z0存在。

3.函数可微的充要条件：Cauchy-Riemann Equations

若f(x+iy)=u(x,y)+iv(x,y)f(x + iy) = u(x,y) + iv(x,y)f(x+iy)=u(x,y)+iv(x,y)可导，则：

1）u(x,y)u(x,y)u(x,y)和v(x,y)v(x,y)v(x,y)在点(x,y)(x,y)(x,y)可导。

2）

∂u∂x=∂v∂y,∂u∂y=−∂v∂x\frac{\partial u}{\partial x} = \frac{\partial v}{\partial y},\frac{\partial u}{\partial y} = -\frac{\partial v}{\partial x}∂x∂u=∂y∂v,∂y∂u=−∂x∂v

4.复数在场论描述中的应用。

复数求导

信号处理领域，很多需要求导的函数往往是不解析的。比如一系列的二乘loss：MSE、LS、WLS等。这些函数都包含∣e(k)∣2=zz∗\mid e(k)\mid^2=zz^*∣e(k)∣2=zz∗的成分。然而，这个函数是不可导的。

zz∗=x2+y2zz^*=x^2+y^2zz∗=x2+y2

所以

∂u∂x=2x,∂v∂x=0\frac{\partial u}{\partial x}=2x,\frac{\partial v}{\partial x}=0∂x∂u=2x,∂x∂v=0

上式显然不满足Cauchy-Riemann Equations，因此函数不可导。

上述结论我们也可以另一个角度观察。

假设f(z)f(z)f(z)解析，则f(z)f(z)f(z)可展开为z的Taylor级数。而这个展开式不包含z∗z^*z∗。即一个解析的复变函数只和z有关，而和z∗z^*z∗无关。

因为实函数必须同时依赖z和z∗z^*z∗，否则虚部无法被消掉。因此，实函数f(z)f(z)f(z)都是不解析的。

所以，Cauchy-Riemann Equations也可以写成f(z∗)=0f(z^*)=0f(z∗)=0。

参考：

https://mp.weixin.qq.com/s/SUWUAMQjSuB5Gs06SPliTQ

复数求导在信号处理中的应用

Hermite矩阵

复数矩阵通常不能直接转置，而必须进行共轭转置。共轭转置也叫做Hermite转置，用AHA^HAH表示。

如果A=AHA=A^HA=AH，则A被称为Hermite矩阵。

Charles Hermite，1822～1901，19世纪下半叶法国最著名的数学家，代数学领域的宗师级人物。Henri Poincaré的导师。他首先证明了e是超越数。以他的名字命名的数学术语竟达10项之多。
Hermite虽然不是如某些地摊文学所言，一遇考试就跪。但是的确不太擅长考试，大学（他考的大学类似国内的清北的地位）入学成绩排在第68位，完全没有学神的风范。相比之下，Poincaré的入学成绩可是排第一位的。尽管就成就而言，Hermite绝不逊于Poincaré。

平稳离散时间随机过程

Toeplitz矩阵

Toeplitz矩阵（diagonal-constant matrix），指矩阵中每条自左上至右下的斜线上的元素相同。

Otto Toeplitz，1881～1940，德国犹太裔数学家。University of Breslau博士（1905），先后执教于Göttingen University（在David Hilbert手下供职）、University of Kiel和Bonn University。1939年，为了躲避元首的迫害，逃亡耶路撒冷，次年去世。

广义平稳离散时间随机过程的相关矩阵是Hermite矩阵，也是Toeplitz矩阵。反之，如果相关矩阵是Toeplitz矩阵，则该离散时间随机过程，一定是广义平稳的。

离散时间随机过程的相关矩阵是非负定的，并且几乎总是正定的。（等于零，只有在无噪声且观测向量线性相关的情况下，才会出现。）

白噪声

E[v(n)v∗(n−k)]={σv2,k=00,k≠0E[v(n)v^*(n-k)]=\begin{cases} \sigma_v^2, & k = 0 \\ 0, & k \neq 0 \\ \end{cases}E[v(n)v∗(n−k)]={σv2,0,k=0k̸=0

线性差分方程

时间随机过程本身是由时间序列组成的，因此也可以使用《机器学习（二十四）》中提到的ARIMA模型。该模型的关键是求解线性差分方程。这通常要使用“信号与系统”课程中的z变换（离散域的拉普拉斯变换）求解。考虑到“信号与系统”是一个很大的课程。这里仅对本人关心的要点，做一个简要记录。

绝对可积->收敛域

z变换：f(z)→F(z)f(z)\to F(z)f(z)→F(z)

z逆变换：F(z)→f(z)F(z)\to f(z)F(z)→f(z)

系统函数：H(z)=R(z)E(z)H(z)=\frac{R(z)}{E(z)}H(z)=E(z)R(z)。其中，E是激励信号，R是系统响应。

E的收敛域：∣z∣>1\mid z\mid >1∣z∣>1

差分算子->特征方程->特征根

H的平稳条件：H的特征根满足∣z∣≤1\mid z\mid \le 1∣z∣≤1

特征根是正实数，且∣z∣<1\mid z \mid<1∣z∣<1：自相关函数为阻尼曲线，仅有幅变。

特征根是负实数或者复数，且∣z∣<1\mid z \mid<1∣z∣<1：自相关函数为正弦阻尼曲线，不仅有幅变，还有相变。

选择ARIMA的阶数

如前所述，ARIMA(p,d,q)除了一些参数之外，还包括p，d，p这三个阶数的超参数。

AIC信息准则即Akaike information criterion，是衡量统计模型拟合优良性(Goodness of fit)的一种标准，由于它为日本统计学家赤池弘次创立和发展的，因此又称赤池信息量准则。AIC方法主要使用了KL散度。

MDL(minimum description length,最小描述长度) 原理是Rissane在研究通用编码时提出的。其基本原理是选择总描述长度最小的模型。

参考：

https://mp.weixin.qq.com/s/66lY17sOO83Q-xhvQi72dw

周期性时间序列的预测

功率谱

随机过程（设时间序列为u(n)u(n)u(n)）二阶统计：

时域——自相关函数：

(1)rN(n−k)=E[uN(n)uN∗(k)]r_N(n-k)=E[u_N(n)u_N^*(k)]\tag{1}rN(n−k)=E[uN(n)uN∗(k)](1)

其中，uN∗(k)u_N^*(k)uN∗(k)是uN(k)u_N(k)uN(k)的复共轭。

频域：

(2)UN(ω)=∑n=−NNuN(n)e−jωnU_N(\omega)=\sum_{n=-N}^Nu_N(n)e^{-j\omega n}\tag{2}UN(ω)=n=−N∑NuN(n)e−jωn(2)

(3)S(ω)=lim⁡N→∞1NE[∣UN(ω)∣2]=∑l=−∞+∞r(l)e−jωlS(\omega)=\lim_{N\to\infty}\frac{1}{N}E[\mid U_N(\omega)\mid^2]=\sum_{l=-\infty}^{+\infty}r(l)e^{-j\omega l}\tag{3}S(ω)=N→∞limN1E[∣UN(ω)∣2]=l=−∞∑+∞r(l)e−jωl(3)

其中，S(ω)S(\omega)S(ω)就是功率谱密度（power spectral density, PSD），也称为功率谱（power spectrum）。

自相关函数和功率谱密度组成了傅立叶变换对，这种关系又被称为EWK（Einstein-Wiener-Khintchine）关系。

Einstein最早提出idea，Wiener证明了一个特例，Khintchine做了扩展证明。

Aleksandr Yakovlevich Khinchin，1894～1959，苏联数学家。莫斯科州立大学毕业，并留校任教，直到去世。苏联概率学派的重要人物。苏联科学院院士。概率论中，著名的Khintchine inequality就是他的成果。

在频域上，我们有Nyquist频率，相应的在时域上，我们也有Nyquist间隔：在这个间隔之外，S(ω)S(\omega)S(ω)是周期性的。

离散时间随机过程的功率谱密度是非负实函数。

(4)So(ω)=∣H(ejω)∣S(ω)S_o(\omega)=\mid H(e^{j\omega})\mid S(\omega)\tag{4}So(ω)=∣H(ejω)∣S(ω)(4)

其中，H为系统函数，SoS_oSo输出信号的功率谱密度。

功率谱密度的Cramér表示：

(5)u(n)=12π∫−ππejωndZ(ω)u(n)=\frac{1}{2\pi}\int_{-\pi}^{\pi}e^{j\omega n}\mathrm{d}Z(\omega)\tag{5}u(n)=2π1∫−ππejωndZ(ω)(5)

其中，dZ(ω)\mathrm{d}Z(\omega)dZ(ω)被称为增量过程（increment process）。

Harald Cramér，1893～1985，瑞典数学家、统计学家。Stockholm University博士（1917）、教授、校长、瑞典高等教育系统大臣。被誉为“统计理论的巨人”。

由公式2和5，可得：

(6)UN(ω)=12π∫−ππ∑n=−NNe(−j(ω−v)n)dZ(v)U_N(\omega)=\frac{1}{2\pi}\int_{-\pi}^{\pi}\sum_{n=-N}^N e^{(-j(\omega-v) n)}\mathrm{d}Z(v)\tag{6}UN(ω)=2π1∫−ππn=−N∑Ne(−j(ω−v)n)dZ(v)(6)

我们定义：

(7)KN(ω)=∑n=−NNejωn=sin⁡((2N+1)ω/2)sin⁡(ω/2)K_N(\omega)=\sum_{n=-N}^N e^{j\omega n}=\frac{\sin((2N+1)\omega/2)}{\sin(\omega/2)}\tag{7}KN(ω)=n=−N∑Nejωn=sin(ω/2)sin((2N+1)ω/2)(7)

则公式6可改写为：

(8)UN(ω)=12π∫−ππKN(ω−v)dZ(v)U_N(\omega)=\frac{1}{2\pi}\int_{-\pi}^{\pi}K_N(\omega-v)\mathrm{d}Z(v)\tag{8}UN(ω)=2π1∫−ππKN(ω−v)dZ(v)(8)

这里的K被称作Dirichlet Kernel。参见《数学狂想曲（一）》的相关章节。

一般来说，在公式8中，UN(ω)U_N(\omega)UN(ω)是已知的，而dZ(ω)\mathrm{d}Z(\omega)dZ(ω)是未知的。从数学上来说，这个积分方程可看做第一类Fredholm积分方程的一个例子。

Erik Ivar Fredholm，1866～1927，瑞典数学家。Uppsala University博士（1898）+Stockholm University教授。不知道是不是瑞典的保险业比较发达，他和Cramér居然都当过兼职的精算师。。。瑞典皇家科学院院士。

Uppsala University是瑞典，也是北欧最古老的大学，始建于1477年。

功率谱密度的估计方法主要包括参数法和非参数法两大类。

参数法包括：

1.模型辨识法。基本就是上面提到的ARIMA或者其变种。

2.最小方差无失真响应法（MVDR）。

3.特征分解法。将相关矩阵R分解为两个子空间：信号子空间和噪声子空间。

非参数法包括：

1.周期图法。

2.多窗口法。

一般来说，随机过程的功率谱包含两个分量：确定性分量和连续分量。前者是增量过程dZ(ω)\mathrm{d}Z(\omega)dZ(ω)的一阶矩，后者是dZ(ω)\mathrm{d}Z(\omega)dZ(ω)的二阶中心矩。

参数法一般在知道相关物理规律时使用，它具有较高的精确度。而非参数法由于只依赖增量过程的一阶矩和二阶中心矩，因此适用范围更广泛，即使不知道系统的物理规律也可以使用。（有些类似万能拟合的GMM）

参考：

https://www.zhihu.com/question/29520851

功率谱密度如何理解？

高阶统计

上面讨论的基本都是一阶和二阶统计量，实际上我们还可以使用更高阶的统计量。使用高阶统计量的学科，一般被称为高阶统计学（higher-order statistics）。

Moment

Moment（矩）的定义为：

μn=∫−∞∞(x−c)n f(x) dx\mu_n = \int_{-\infty}^\infty (x - c)^n\,f(x)\,\mathrm{d}xμn=∫−∞∞(x−c)nf(x)dx

其中，当c=0时，被称作Raw Moment。当c为均值时，被称作Central Moment。如果用μn/σn\mu_n/\sigma^nμn/σn替换μn\mu_nμn，就是所谓的Normalised Moment了。

1阶Raw Moment，常称为Mean。2阶Central Moment，常称为Variance。3阶Normalised Moment，常称为Skewness。4阶Normalised Moment，常称为kurtosis。

Cumulants

Cumulants（累积量）的思想最早是Thorvald Thiele提出的，后来被Ronald Fisher和John Wishart发扬光大。

Thorvald Nicolai Thiele，1838～1910，丹麦天文学家。哥本哈根大学博士。哥本哈根天文台台长（1978～1907）。曾研究过三体问题。被Ronald Fisher誉为“最伟大的统计学家”。

John Wishart，1898～1956，苏格兰数学家和农业统计学家。Edinburgh University本科+Cambridge University硕士+University College London博士。导师是Karl Pearson，和Ronald Fisher也有过合作。Royal Society of Edinburgh会员。Cambridge University统计实验室首任主任。

苏格兰人的自我意识真是强，足球有自己的协会，就连皇家学会也有自己的。

数学狂想曲（十）——复变函数, 平稳离散时间随机过程, 功率谱相关推荐

数学狂想曲（十二）——熵（2）, 阴影面积, 肺炎版《黄冈密卷》
熵继<数学狂想曲(九)>之后,再谈谈熵. Landauer's Erasure Principle 在量子力学中,如同电荷.质量.时间有最小单位一样,热力学熵也有最小单位.Landaue ...
华为徐文伟：后香农时代，面向数学的十大挑战问题
本文为2020年8月28日徐文伟在长沙由中国工业与应用数学学会举办的"数学促进企业创新发展论坛"上的发言来源:中国科学院院刊徐文伟华为技术有限公司董事,华为战略研究院院长后 ...
王健林：中国房地产不会崩盘进入十年平稳发展期
王健林:中国房地产不会崩盘进入十年平稳发展期宏观经济第一财经日报[微博]蔡胤2014-11-11 03:23 我要分享 2425 [ "首先是中国的工业化和城镇化还在中期,离城镇化完成还 ...
数学狂想曲（十一）——高阶统计, 最速降线, 泛函变分
高阶统计 Cumulants(续) 在介绍Cumulants之前,我们首先看一下Moment-generating function: MX(t):=E⁡[etX],t∈RM_X(t) := \ope ...
盘点数学里十大不需语言的证明
全世界只有3.14 % 的人关注了爆炸吧知识当谈到复杂数学定理的证明时,很多人常常为之色变,认为这只是一个枯燥的公式堆砌和深奥的数学推导过程.这当然是一个让笔者感到纠结的误解.因为数学证明中包含的 ...
数学建模_数学模型的分类数学建模十大算法
数学模型的分类数学建模十大算法 1.蒙特卡罗算法 (该算法又称随机性模拟算法, 是通过计算机仿真来解决问题的算法, 同时可以通过模拟可以来检验自己模型的正确性,比较好用的算法) 2.数据拟合.参数 ...
用计算机学数学日记,【精华】小学生数学日记十篇
[精华]小学生数学日记十篇小学生数学日记篇1 在生活中,我们大家会遇到很多难题,大家遇到难题时是退缩了还是把他解决了呢? 今天,我被一道数学题给难住了,这道是将112这12个数填入右图的12个空格 ...
数学狂想曲（八）——核弹当量问题, Lanchester战争模型, 随机过程
核弹当量问题核弹爆炸由于是个复杂的过程,因此就有了爆炸火球半径.辐射半径.冲击波半径以及热辐射半径等不同的威力评价标准. 具体的介绍可参见: https://www.zhihu.com/questi ...
数学狂想曲（一）——搞笑图片的数学原理, 欧拉公式, 傅里叶变换
搞笑图片的数学原理这是一个在各论坛流传已久的图片.这个题目的描述虽不复杂,但仅凭大学本科的高等数学,实际上是搞不定这个问题的. 首先需要明确的是,上图中的被积函数1−cosxx2\frac{1-\c ...

数学狂想曲（十）——复变函数, 平稳离散时间随机过程, 功率谱