熵(续)

信息熵

信息熵和热力学熵的假设相同,因此有类似结论不足为奇,毕竟数学上都是同一个微分方程。

信息熵:编码方案完美时,最短平均编码长度的是多少。

交叉熵:编码方案不一定完美时(由于对概率分布的估计不一定正确),平均编码长度的是多少。平均编码长度=最短平均编码长度+一个增量

H(p,q)=−∑xp(x) log⁡q(x)H(p, q) = -\sum_x p(x)\, \log q(x)H(p,q)=−x∑​p(x)logq(x)

相对熵:编码方案不一定完美时,平均编码长度相对于最小值的增加值。(即上面那个增量)

DKL(P∥Q)=−∑iP(i) log⁡Q(i)P(i)D_{\mathrm{KL}}(P\|Q) = - \sum_i P(i) \, \log\frac{Q(i)}{P(i)}DKL​(P∥Q)=−i∑​P(i)logP(i)Q(i)​

参考:

https://www.zhihu.com/question/41252833

如何通俗的解释交叉熵与相对熵?

复变函数

1.复球面表示。

2.条件严格性。

点域:连续<可导(可微)<可解析

区域:连续<可导(可微)=可解析

由于复平面的存在,极限z→z0z\to z_0z→z0​中,趋向于点z0z_0z0​的路径有无穷多种,必须所有路径的极限都存在且一致,才可以说极限z→z0z\to z_0z→z0​存在。

3.函数可微的充要条件:Cauchy-Riemann Equations

若f(x+iy)=u(x,y)+iv(x,y)f(x + iy) = u(x,y) + iv(x,y)f(x+iy)=u(x,y)+iv(x,y)可导,则:

1)u(x,y)u(x,y)u(x,y)和v(x,y)v(x,y)v(x,y)在点(x,y)(x,y)(x,y)可导。

2)

∂u∂x=∂v∂y,∂u∂y=−∂v∂x\frac{\partial u}{\partial x} = \frac{\partial v}{\partial y},\frac{\partial u}{\partial y} = -\frac{\partial v}{\partial x}∂x∂u​=∂y∂v​,∂y∂u​=−∂x∂v​

4.复数在场论描述中的应用。

复数求导

信号处理领域,很多需要求导的函数往往是不解析的。比如一系列的二乘loss:MSE、LS、WLS等。这些函数都包含∣e(k)∣2=zz∗\mid e(k)\mid^2=zz^*∣e(k)∣2=zz∗的成分。然而,这个函数是不可导的。

zz∗=x2+y2zz^*=x^2+y^2zz∗=x2+y2

所以

∂u∂x=2x,∂v∂x=0\frac{\partial u}{\partial x}=2x,\frac{\partial v}{\partial x}=0∂x∂u​=2x,∂x∂v​=0

上式显然不满足Cauchy-Riemann Equations,因此函数不可导。

上述结论我们也可以另一个角度观察。

假设f(z)f(z)f(z)解析,则f(z)f(z)f(z)可展开为z的Taylor级数。而这个展开式不包含z∗z^*z∗。即一个解析的复变函数只和z有关,而和z∗z^*z∗无关。

因为实函数必须同时依赖z和z∗z^*z∗,否则虚部无法被消掉。因此,实函数f(z)f(z)f(z)都是不解析的

所以,Cauchy-Riemann Equations也可以写成f(z∗)=0f(z^*)=0f(z∗)=0。

参考:

https://mp.weixin.qq.com/s/SUWUAMQjSuB5Gs06SPliTQ

复数求导在信号处理中的应用

Hermite矩阵

复数矩阵通常不能直接转置,而必须进行共轭转置。共轭转置也叫做Hermite转置,用AHA^HAH表示。

如果A=AHA=A^HA=AH,则A被称为Hermite矩阵。

Charles Hermite,1822~1901,19世纪下半叶法国最著名的数学家,代数学领域的宗师级人物。Henri Poincaré的导师。他首先证明了e是超越数。以他的名字命名的数学术语竟达10项之多。
Hermite虽然不是如某些地摊文学所言,一遇考试就跪。但是的确不太擅长考试,大学(他考的大学类似国内的清北的地位)入学成绩排在第68位,完全没有学神的风范。相比之下,Poincaré的入学成绩可是排第一位的。尽管就成就而言,Hermite绝不逊于Poincaré。

平稳离散时间随机过程

Toeplitz矩阵

Toeplitz矩阵(diagonal-constant matrix),指矩阵中每条自左上至右下的斜线上的元素相同。

Otto Toeplitz,1881~1940,德国犹太裔数学家。University of Breslau博士(1905),先后执教于Göttingen University(在David Hilbert手下供职)、University of Kiel和Bonn University。1939年,为了躲避元首的迫害,逃亡耶路撒冷,次年去世。

广义平稳离散时间随机过程的相关矩阵是Hermite矩阵,也是Toeplitz矩阵。反之,如果相关矩阵是Toeplitz矩阵,则该离散时间随机过程,一定是广义平稳的。

离散时间随机过程的相关矩阵是非负定的,并且几乎总是正定的。(等于零,只有在无噪声且观测向量线性相关的情况下,才会出现。)

白噪声

E[v(n)v∗(n−k)]={σv2,k=00,k≠0E[v(n)v^*(n-k)]=\begin{cases} \sigma_v^2, &amp; k = 0 \\ 0, &amp; k \neq 0 \\ \end{cases}E[v(n)v∗(n−k)]={σv2​,0,​k=0k̸​=0​

线性差分方程

时间随机过程本身是由时间序列组成的,因此也可以使用《机器学习(二十四)》中提到的ARIMA模型。该模型的关键是求解线性差分方程。这通常要使用“信号与系统”课程中的z变换(离散域的拉普拉斯变换)求解。考虑到“信号与系统”是一个很大的课程。这里仅对本人关心的要点,做一个简要记录。

绝对可积->收敛域

z变换:f(z)→F(z)f(z)\to F(z)f(z)→F(z)

z逆变换:F(z)→f(z)F(z)\to f(z)F(z)→f(z)

系统函数:H(z)=R(z)E(z)H(z)=\frac{R(z)}{E(z)}H(z)=E(z)R(z)​。其中,E是激励信号,R是系统响应。

E的收敛域:∣z∣&gt;1\mid z\mid &gt;1∣z∣>1

差分算子->特征方程->特征根

H的平稳条件:H的特征根满足∣z∣≤1\mid z\mid \le 1∣z∣≤1

特征根是正实数,且∣z∣&lt;1\mid z \mid&lt;1∣z∣<1:自相关函数为阻尼曲线,仅有幅变。

特征根是负实数或者复数,且∣z∣&lt;1\mid z \mid&lt;1∣z∣<1:自相关函数为正弦阻尼曲线,不仅有幅变,还有相变。

选择ARIMA的阶数

如前所述,ARIMA(p,d,q)除了一些参数之外,还包括p,d,p这三个阶数的超参数。

AIC信息准则即Akaike information criterion,是衡量统计模型拟合优良性(Goodness of fit)的一种标准,由于它为日本统计学家赤池弘次创立和发展的,因此又称赤池信息量准则。AIC方法主要使用了KL散度。

MDL(minimum description length,最小描述长度) 原理是Rissane在研究通用编码时提出的。其基本原理是选择总描述长度最小的模型。

参考:

https://mp.weixin.qq.com/s/66lY17sOO83Q-xhvQi72dw

周期性时间序列的预测

功率谱

随机过程(设时间序列为u(n)u(n)u(n))二阶统计:

时域——自相关函数

(1)rN(n−k)=E[uN(n)uN∗(k)]r_N(n-k)=E[u_N(n)u_N^*(k)]\tag{1}rN​(n−k)=E[uN​(n)uN∗​(k)](1)

其中,uN∗(k)u_N^*(k)uN∗​(k)是uN(k)u_N(k)uN​(k)的复共轭。

频域:

(2)UN(ω)=∑n=−NNuN(n)e−jωnU_N(\omega)=\sum_{n=-N}^Nu_N(n)e^{-j\omega n}\tag{2}UN​(ω)=n=−N∑N​uN​(n)e−jωn(2)

(3)S(ω)=lim⁡N→∞1NE[∣UN(ω)∣2]=∑l=−∞+∞r(l)e−jωlS(\omega)=\lim_{N\to\infty}\frac{1}{N}E[\mid U_N(\omega)\mid^2]=\sum_{l=-\infty}^{+\infty}r(l)e^{-j\omega l}\tag{3}S(ω)=N→∞lim​N1​E[∣UN​(ω)∣2]=l=−∞∑+∞​r(l)e−jωl(3)

其中,S(ω)S(\omega)S(ω)就是功率谱密度(power spectral density, PSD),也称为功率谱(power spectrum)。

自相关函数和功率谱密度组成了傅立叶变换对,这种关系又被称为EWK(Einstein-Wiener-Khintchine)关系

Einstein最早提出idea,Wiener证明了一个特例,Khintchine做了扩展证明。

Aleksandr Yakovlevich Khinchin,1894~1959,苏联数学家。莫斯科州立大学毕业,并留校任教,直到去世。苏联概率学派的重要人物。苏联科学院院士。概率论中,著名的Khintchine inequality就是他的成果。

在频域上,我们有Nyquist频率,相应的在时域上,我们也有Nyquist间隔:在这个间隔之外,S(ω)S(\omega)S(ω)是周期性的。

离散时间随机过程的功率谱密度是非负实函数。

(4)So(ω)=∣H(ejω)∣S(ω)S_o(\omega)=\mid H(e^{j\omega})\mid S(\omega)\tag{4}So​(ω)=∣H(ejω)∣S(ω)(4)

其中,H为系统函数,SoS_oSo​输出信号的功率谱密度。

功率谱密度的Cramér表示:

(5)u(n)=12π∫−ππejωndZ(ω)u(n)=\frac{1}{2\pi}\int_{-\pi}^{\pi}e^{j\omega n}\mathrm{d}Z(\omega)\tag{5}u(n)=2π1​∫−ππ​ejωndZ(ω)(5)

其中,dZ(ω)\mathrm{d}Z(\omega)dZ(ω)被称为增量过程(increment process)

Harald Cramér,1893~1985,瑞典数学家、统计学家。Stockholm University博士(1917)、教授、校长、瑞典高等教育系统大臣。被誉为“统计理论的巨人”。

由公式2和5,可得:

(6)UN(ω)=12π∫−ππ∑n=−NNe(−j(ω−v)n)dZ(v)U_N(\omega)=\frac{1}{2\pi}\int_{-\pi}^{\pi}\sum_{n=-N}^N e^{(-j(\omega-v) n)}\mathrm{d}Z(v)\tag{6}UN​(ω)=2π1​∫−ππ​n=−N∑N​e(−j(ω−v)n)dZ(v)(6)

我们定义:

(7)KN(ω)=∑n=−NNejωn=sin⁡((2N+1)ω/2)sin⁡(ω/2)K_N(\omega)=\sum_{n=-N}^N e^{j\omega n}=\frac{\sin((2N+1)\omega/2)}{\sin(\omega/2)}\tag{7}KN​(ω)=n=−N∑N​ejωn=sin(ω/2)sin((2N+1)ω/2)​(7)

则公式6可改写为:

(8)UN(ω)=12π∫−ππKN(ω−v)dZ(v)U_N(\omega)=\frac{1}{2\pi}\int_{-\pi}^{\pi}K_N(\omega-v)\mathrm{d}Z(v)\tag{8}UN​(ω)=2π1​∫−ππ​KN​(ω−v)dZ(v)(8)

这里的K被称作Dirichlet Kernel。参见《数学狂想曲(一)》的相关章节。

一般来说,在公式8中,UN(ω)U_N(\omega)UN​(ω)是已知的,而dZ(ω)\mathrm{d}Z(\omega)dZ(ω)是未知的。从数学上来说,这个积分方程可看做第一类Fredholm积分方程的一个例子。

Erik Ivar Fredholm,1866~1927,瑞典数学家。Uppsala University博士(1898)+Stockholm University教授。不知道是不是瑞典的保险业比较发达,他和Cramér居然都当过兼职的精算师。。。瑞典皇家科学院院士。

Uppsala University是瑞典,也是北欧最古老的大学,始建于1477年。

功率谱密度的估计方法主要包括参数法和非参数法两大类。

参数法包括:

1.模型辨识法。基本就是上面提到的ARIMA或者其变种。

2.最小方差无失真响应法(MVDR)。

3.特征分解法。将相关矩阵R分解为两个子空间:信号子空间和噪声子空间。

非参数法包括:

1.周期图法。

2.多窗口法。

一般来说,随机过程的功率谱包含两个分量:确定性分量和连续分量。前者是增量过程dZ(ω)\mathrm{d}Z(\omega)dZ(ω)的一阶矩,后者是dZ(ω)\mathrm{d}Z(\omega)dZ(ω)的二阶中心矩。

参数法一般在知道相关物理规律时使用,它具有较高的精确度。而非参数法由于只依赖增量过程的一阶矩和二阶中心矩,因此适用范围更广泛,即使不知道系统的物理规律也可以使用。(有些类似万能拟合的GMM)

参考:

https://www.zhihu.com/question/29520851

功率谱密度如何理解?

高阶统计

上面讨论的基本都是一阶和二阶统计量,实际上我们还可以使用更高阶的统计量。使用高阶统计量的学科,一般被称为高阶统计学(higher-order statistics)。

Moment

Moment(矩)的定义为:

μn=∫−∞∞(x−c)n&ThinSpace;f(x)&ThinSpace;dx\mu_n = \int_{-\infty}^\infty (x - c)^n\,f(x)\,\mathrm{d}xμn​=∫−∞∞​(x−c)nf(x)dx

其中,当c=0时,被称作Raw Moment。当c为均值时,被称作Central Moment。如果用μn/σn\mu_n/\sigma^nμn​/σn替换μn\mu_nμn​,就是所谓的Normalised Moment了。

1阶Raw Moment,常称为Mean。2阶Central Moment,常称为Variance。3阶Normalised Moment,常称为Skewness。4阶Normalised Moment,常称为kurtosis。

Cumulants

Cumulants(累积量)的思想最早是Thorvald Thiele提出的,后来被Ronald Fisher和John Wishart发扬光大。

Thorvald Nicolai Thiele,1838~1910,丹麦天文学家。哥本哈根大学博士。哥本哈根天文台台长(1978~1907)。曾研究过三体问题。被Ronald Fisher誉为“最伟大的统计学家”。

John Wishart,1898~1956,苏格兰数学家和农业统计学家。Edinburgh University本科+Cambridge University硕士+University College London博士。导师是Karl Pearson,和Ronald Fisher也有过合作。Royal Society of Edinburgh会员。Cambridge University统计实验室首任主任。

苏格兰人的自我意识真是强,足球有自己的协会,就连皇家学会也有自己的。

数学狂想曲(十)——复变函数, 平稳离散时间随机过程, 功率谱相关推荐

  1. 数学狂想曲(十二)——熵(2), 阴影面积, 肺炎版《黄冈密卷》

    熵 继<数学狂想曲(九)>之后,再谈谈熵. Landauer's Erasure Principle 在量子力学中,如同电荷.质量.时间有最小单位一样,热力学熵也有最小单位.Landaue ...

  2. 华为徐文伟:后香农时代,面向数学的十大挑战问题

    本文为2020年8月28日徐文伟在长沙由中国工业与应用数学学会举办的"数学促进企业创新发展论坛"上的发言 来源:中国科学院院刊 徐文伟 华为技术有限公司董事,华为战略研究院院长 后 ...

  3. 王健林:中国房地产不会崩盘 进入十年平稳发展期

    王健林:中国房地产不会崩盘 进入十年平稳发展期 宏观经济第一财经日报[微博]蔡胤2014-11-11 03:23 我要分享 2425 [ "首先是中国的工业化和城镇化还在中期,离城镇化完成还 ...

  4. 数学狂想曲(十一)——高阶统计, 最速降线, 泛函 变分

    高阶统计 Cumulants(续) 在介绍Cumulants之前,我们首先看一下Moment-generating function: MX(t):=E⁡[etX],t∈RM_X(t) := \ope ...

  5. 盘点数学里十大不需语言的证明

    全世界只有3.14 % 的人关注了 爆炸吧知识 当谈到复杂数学定理的证明时,很多人常常为之色变,认为这只是一个枯燥的公式堆砌和深奥的数学推导过程.这当然是一个让笔者感到纠结的误解.因为数学证明中包含的 ...

  6. 数学建模_数学模型的分类数学建模十大算法

    数学模型的分类 数学建模十大算法 1.蒙特卡罗算法 (该算法又称随机性模拟算法, 是通过计算机仿真来解决问题的算法, 同时可以 通过模拟可以来检验自己模型的正确性,比较好用的算法) 2.数据拟合.参数 ...

  7. 用计算机学数学日记,【精华】小学生数学日记十篇

    [精华]小学生数学日记十篇 小学生数学日记 篇1 在生活中,我们大家会遇到很多难题,大家遇到难题时是退缩了还是把他解决了呢? 今天,我被一道数学题给难住了,这道是将112这12个数填入右图的12个空格 ...

  8. 数学狂想曲(八)——核弹当量问题, Lanchester战争模型, 随机过程

    核弹当量问题 核弹爆炸由于是个复杂的过程,因此就有了爆炸火球半径.辐射半径.冲击波半径以及热辐射半径等不同的威力评价标准. 具体的介绍可参见: https://www.zhihu.com/questi ...

  9. 数学狂想曲(一)——搞笑图片的数学原理, 欧拉公式, 傅里叶变换

    搞笑图片的数学原理 这是一个在各论坛流传已久的图片.这个题目的描述虽不复杂,但仅凭大学本科的高等数学,实际上是搞不定这个问题的. 首先需要明确的是,上图中的被积函数1−cosxx2\frac{1-\c ...

最新文章

  1. Unity 好消息,中文版Unity来啦!!!
  2. Java黑皮书课后题第8章:**8.14(探讨矩阵)编写程序,提示用户输入一个方阵的长度,随机地在矩阵中填入0和1,打印这个矩阵,然后找出整行、整列或者对角线都是1或0的行、列和对角线
  3. ASP.NET Core:CMD命令行+记事本 创建Console程序和Web Application
  4. Serilog 日志框架如何自动删除超过 N 天的日志 ?
  5. 容器化时代我们应当选择Kubernetes
  6. php 显示中文utf,php adodb 从mysql数据库中输出中文显示到utf编码网页乱码问题
  7. 计算机快捷键下档健,电脑文档快捷键
  8. [No000083]文件与文件夹操作
  9. 随机无梯度Frank-Wolfe方法的统一分析
  10. Windows操作系统免费下载地址(itellyou)
  11. python画爱心的代码怎么运行_怎么用python实现画爱心
  12. 魔方世界连服务器未响应,为什么魔方世界显示无法连接服务器 | 手游网游页游攻略大全...
  13. 【图像隐写】基于matlab LSB数字水印嵌入提取【含Matlab源码 2412期】
  14. Android渐变遮罩
  15. 现货期货价格关系(现货期货价格关系分析)
  16. python-体质指数BMI计算
  17. 电信网络电视显示服务器出错,电信网络电视错误代码0025是什么问题
  18. SMS106 短信验证码接口测试
  19. pyqtQQ空间抢车位游戏自动停车
  20. 财务Financial Affairs

热门文章

  1. visual studio报错:error C4996: ‘scanf‘
  2. element table 表格设置max-height 没有出现滚动条,多渲染了一列。
  3. viper4android哪个版本好,VIPER4Android最新版本
  4. java 教程 嵌入式,嵌入式狗的 JAVA 入门笔记·1
  5. Packet for query is too large
  6. 关于生活与工作的一些反思
  7. 使用vant 制作导航栏
  8. 前端页面闪烁的问题解决方案
  9. 将SVG 图引入到HTML页面
  10. 移动语义(move semantic)和完美转发(perfect forward)