序

AI到底向哪个方向去？有很多学者质疑AI只有artificial 不见intelligence；的确，目前的AI主流是深度学习，也就是傍着一个庞大数据集去群举地刻画一次，然后再使用模型。此中确实与套用死公式无异，没有多大的变通性；当然智慧性也不大。而越是自然的模型，前景就更好。本文摘自维基百科。主要阐述卡尔·约翰·弗里斯顿（Karl John Friston）的自由能学说。从理论上阐述高级AI模型应该有的结构和物理思想，此等构思虽然目前不足以立刻实现，但是，这是趋势！这是未来！对于一般的应用工程师，该文启发性是相当大的，至少我这么认为。

卡尔·约翰·弗里斯顿（Karl John Friston）皇家医学会院士（FMedSci）是英国伦敦大学学院的神经科学家，是大脑成像领域的权威。作为自由能原理和预测编码理论的主要支持者，他赢得了声誉。

一、前言

（原文链接）The Genius Neuroscientist Who Might Hold the Key to True AI | WIRED

自由能原理是一个正式的陈述，它解释了生命和非生命系统如何通过将自身限制在有限数量的状态来保持在非平衡稳态。它建立了系统最小化其内部状态的自由能函数（不要与热力学自由能混淆），这需要对其环境中隐藏状态的信念。自由能的隐式最小化在形式上与变分贝叶斯方法相关，最初由 Karl Friston （弗里斯顿）引入，作为对神经科学中具身感知的解释，[1] 在那里它也被称为主动推理。

自由能原理通过通过马尔可夫毯对其进行建模来解释给定系统的存在，该马尔可夫毯试图最小化他们的世界模型与他们的感觉和相关感知之间的差异。这种差异可以被描述为“惊觉suprise”，并通过系统的世界模型的不断修正来最小化。因此，该原理基于将大脑视为“推理引擎”的贝叶斯思想。弗里斯顿添加了第二条最小化途径：行动。通过积极地将世界转变为预期状态，系统还可以最大限度地减少系统的自由能。弗里斯顿认为这是所有生物反应的原理。 [2]弗里斯顿还相信他的原则适用于精神障碍和人工智能。基于主动推理原理的人工智能实现已显示出优于其他方法的优势。 [2]

自由能原理因难以理解而受到批评，即使是专家也是如此。 [3]对该原理的讨论也被批评为引用与可检验的科学预测相去甚远的形而上学假设，使该原理不可证伪。 [4]在 2018 年的一次采访中，弗里斯顿承认自由能原理是不可证伪的：“自由能原理就是它的本质——一个原理。就像汉密尔顿的静止作用原理一样，它不能被证伪。它不能被证伪。事实上，除非您询问可测量的系统是否符合该原则，否则您无能为力。”[5]

自组织生物系统——如细胞或大脑——可以被理解为最小化自由能变化的概念是基于亥姆霍兹在无意识推理[6]以及心理学[7]和机器学习的后续治疗方面的工作[8]。变分自由能是观察结果和隐藏原因的概率密度的函数。这种变分密度是根据概率模型定义的，该模型根据假设的原因生成预测的观察结果。在这种情况下，自由能提供了贝叶斯模型证据的近似值。 [9]因此，它的最小化可以看作是一个贝叶斯推理过程。当一个系统主动进行观察以最小化自由能时，它隐含地执行主动推理并最大化其世界模型的证据。然而，自由能也是结果自我信息的上限，其中意外的长期平均值是熵。这意味着，如果一个系统采取行动以最小化自由能，它将隐含地为其采样的结果（或感官状态）的熵设置上限。

与其他理论的关系

主动推理（Active inference）与良好的调节原理（regulator theorem） [12] 和自组织的相关解释密切相关（self-organisation），[13] [14] 如自组装（self-assembly）、模式形成（pattern formation）、自创生（autopoiesis）[15] 和实践创生（practopoiesis） [16]。它涉及控制论（cybernetics）、协同学（synergetics）[17]和具身认知（embodied cognition）中考虑的主题。由于自由能可以表示为变分密度减去其熵下观测的期望能量，因此也与最大熵原理有关（maximum entropy principle）[18]。最后，因为能量的时间平均是作用量，所以最小变分自由能原理是最小作用量原理（principle of least action）。

（参考原文）Active inference is closely related to the good regulator theorem[12] and related accounts of self-organisation,[13][14] such as self-assembly, pattern formation, autopoiesis[15] and practopoiesis.[16] It addresses the themes considered in cybernetics, synergetics[17] and embodied cognition. Because free energy can be expressed as the expected energy of observations under the variational density minus its entropy, it is also related to the maximum entropy principle.[18] Finally, because the time average of energy is action, the principle of minimum variational free energy is a principle of least action.

二、自由能理论定义

1 定义（连续公式）

主动推理依赖于元组 $(\Omega ,\Psi ,S,A,R,q,p)$

1 样本母空间 $\Omega$ – 随机波动 $\omega \in \Omega$ 从中抽取
2 隐藏或外部状态 $\Psi :\Psi \times A\times \Omega \to \mathbb {R}$ – 导致感官状态并取决于行动
3 感官状态 $S:\Psi \times A\times \Omega \to \mathbb {R}$ – 从动作和隐藏的概率映射状态
4 动作 $A:S\times R\to \mathbb {R}$ – 这取决于感觉和内部状态
5 内部状态 $R:R\times S\to \mathbb {R}$ – 导致动作并依赖于感官状态
6 生成密度 $p(s,\psi \mid m)$ – 生成模型下的感官和隐藏状态 $m$
7 变分密度 $q(\psi \mid \mu )$ – 隐藏状态 $\psi \in \Psi$ 由内部状态参数化 $\mu \in R$

2 动作和感知

目标是最大化模型证据 $p(s\mid m)$ 或最小化惊喜 $-\log p(s\mid m)$ 。这通常涉及对隐藏状态的难以处理的边缘化，因此惊喜被替换为上变分自由能界限。 [8]然而，这意味着内部状态也必须最小化自由能，因为自由能是感觉和内部状态的函数：

$\mu (t)={\underset {\mu }{\operatorname {arg\,min} }}\{F((s(t),\mu (t))\}$

$\mu (t)={\underset {\mu }{\operatorname {arg\,min} }}\{F(s(t),\mu ))\}$

${\underset {\mathrm {free-energy} }{\underbrace {F(s,\mu )} }}={\underset {\mathrm {energy} }{\underbrace {E_{q}[-\log p(s,\psi \mid m)]} }}-{\underset {\mathrm {entropy} }{\underbrace {H[q(\psi \mid \mu )]} }$

$={\underset {\mathrm {surprise} }{\underbrace {-\log p(s\mid m)} }}+{\underset {\mathrm {divergence} }{\underbrace {D_{\mathrm {KL} }[q(\psi \mid \mu )\parallel p(\psi \mid s,m)]} }}\geq {\underset {\mathrm {surprise} }{\underbrace {-\log p(s\mid m)} }}$

这导致分别对应于动作和感知的动作多少和内部状态的双重最小化。

三、自由能最小化理论

3.1 自由能最小化和自组织

当将自由能最小化为随机动力系统时，已提出将其作为自组织系统的标志。 [19]该公式基于将内部和外部状态分开的马尔可夫毯（包括动作和感觉状态）。如果内部状态和动作最小化自由能，那么它们会为感觉状态的熵设置一个上限：

$\lim _{T\to \infty }{\frac {1}{T}}{\underset {\text{free-action}}{\underbrace {\int _{0}^{T}F(s(t),\mu (t))\,dt} }}\geq \lim _{T\to \infty }{\frac {1}{T}}\int _{0}^{T}{\underset {\text{surprise}}{\underbrace {-\log p(s(t)\mid m)} }}\,dt=H[p(s\mid m)]$

这是因为——在遍历假设下——意外的长期平均值是熵。这个界限抵抗了一种自然的无序趋势——与热力学第二定律和涨落定理相关的那种。然而，根据统计物理学的概念，如随机动力系统、非平衡稳态和遍历性，为生命科学制定统一的原则，对生物系统的理论和实证研究施加了实质性的限制，有可能会混淆所有使生物系统成为有趣的自组织系统的特征[20]

3.2 自由能最小化和贝叶斯推理

所有贝叶斯推理都可以根据自由能最小化[21][验证失败]进行。当自由能相对于内部状态最小化时，隐藏状态的变分密度和后验密度之间的 Kullback-Leibler 散度最小化。这对应于近似贝叶斯推理——当变分密度的形式固定时——否则对应于精确贝叶斯推理。因此，自由能最小化提供了贝叶斯推理和过滤（例如，卡尔曼过滤）的一般描述。它还用于贝叶斯模型选择，其中自由能可以有效地分解为复杂性和准确性：

${\displaystyle {\underset {\text{free-energy}}{\underbrace {F(s,\mu )} }}=$ ${\underset {\text{complexity}}{\underbrace {D_{\mathrm {KL} }[q(\psi \mid \mu )\parallel p(\psi \mid m)]} }}-{\underset {\mathrm {accuracy} }{\underbrace {E_{q}[\log p(s\mid \psi ,m)]} }}$

具有最小自由能的模型在复杂性成本下提供了对数据的准确解释（参见奥卡姆剃刀和更正式的计算成本处理[22]）。在这里，复杂性是变分密度和关于隐藏状态的先验信念（即用于解释数据的有效自由度）之间的差异。

3.3 自由能最小化和热力学

变分自由能是一种信息论泛函，不同于热力学（亥姆霍兹）自由能。 [23]然而，变分自由能的复杂性项与亥姆霍兹自由能共享相同的不动点（假设系统在热力学上是封闭的但不是孤立的）。这是因为如果感觉扰动被暂停（在适当长的时间内），复杂性就会被最小化（因为准确性可以忽略不计）。此时，系统处于平衡状态，内部状态根据最小能量原理最小化亥姆霍兹自由能[24].

3.4 自由能最小化和信息论

自由能最小化等效于最大化感官状态和内部状态之间的互信息，这些信息将变分密度参数化（对于固定的熵变分密度）。[10][需要更好的来源]这将自由能最小化与最小冗余原则联系起来[ 25] 以及使用信息理论描述最佳行为的相关治疗。 [26] [27]

四、神经科学中的自由能最小化

自由能最小化提供了一种有用的方法来制定在不确定性下的神经元推理和学习的规范（贝叶斯最优）模型 [28]，因此支持贝叶斯大脑假设。 [29]自由能最小化描述的神经元过程取决于隐藏状态的性质： $\Psi =X\times \Theta \times \Pi$ 可以包含时间相关变量、时不变参数和随机波动的精度（反方差或温度）。最小化变量、参数和精度分别对应于推理、学习和不确定性的编码。

4.1 感知推理和分类

自由能最小化形式化了感知中无意识推理的概念[6][8]，并提供了神经元处理的规范（贝叶斯）理论。神经元动力学的相关过程理论基于通过梯度下降最小化自由能。这对应于广义贝叶斯滤波（其中 ~ 表示广义运动坐标中的变量， $D$ 是导数矩阵算子）：[30]

${\dot {\tilde {\mu }}}=D{\tilde {\mu }}-\partial _{\mu }F(s,\mu ){\Big |}_{\mu ={\tilde {\mu }}$

通常，定义自由能的生成模型是非线性和分层的（就像大脑中的皮层分层结构）。广义滤波的特殊情况包括卡尔曼滤波，它在形式上等同于预测编码[31]——一种在大脑中传递信息的流行比喻。在分层模型下，预测编码涉及上升（自下而上）预测错误和下降（自上而下）预测 [32] 的反复交换，这与感觉 [33] 和运动系统的解剖学和生理学一致。 [34]

4.2 感性学习与记忆

在预测编码中，通过对自由能（自由作用）的时间积分进行梯度下降来优化模型参数会降低关联或赫布可塑性，并且与大脑中的突触可塑性有关。

4.3 感知精确度、注意力和显着性

优化精度参数对应于优化预测误差的增益（参见卡尔曼增益）。在预测编码的神经元似是而非的实现中，[32] 这对应于优化浅层锥体细胞的兴奋性，并已被解释为注意力增益。 [35]

间交互的循环性质。作者使用已建立的紧急注意模型 SAIM，提出了一种称为 PE-SAIM 的模型，与标准版本相比，它从自上而下的立场接近选择性注意。该模型考虑了发送到相同级别或更高级别的转发预测误差，以最小化指示数据与其原因之间的差异的能量函数，或者换句话说，生成模型和后验之间的差异。为了提高有效性，他们还在模型中加入了刺激之间的神经竞争。该模型的一个显着特点是仅根据任务执行期间的预测误差重新制定自由能函数：

${\dfrac {\partial E^{total}(Y^{VP},X^{SN},x^{CN},y^{KN})}{\partial y_{mn}^{SN}}}=x_{mn}^{CN}-b^{CN}\varepsilon _{nm}^{CN}+b^{CN}\sum _{k}(\varepsilon _{knm}^{KN})$

其中 $E^{total}$ 是神经网络的总能量函数，而 $\varepsilon _{knm}^{KN}$ 是生成模型（先验）和后验随时间变化的预测误差。 [36]比较这两个模型揭示了它们各自结果之间的显着相似性，同时也突出了显着的差异，其中 - 在 SAIM 的标准版本中 - 模型的重点主要是兴奋性连接，而在 PE-SAIM 中，抑制性连接是用来做推理。该模型还被证明适合以高精度预测从人体实验中提取的 EEG 和 fMRI 数据。同样，Yahya 等人。还应用自由能原理提出了一个主要依赖于 SAIM 的隐性选择性视觉注意中的模板匹配计算模型。 [37]根据这项研究，通过在原始神经网络中插入自上而下的信号来达到整个状态空间的总自由能，由此我们推导出一个包含前馈和后向预测误差的动力系统。

五、关于主动推理

当梯度下降应用于动作 ${\dot {a}}=-\partial _{a}F(s,{\tilde {\mu }})$ ，运动控制可以通过下行（皮质脊髓）预测参与的经典反射弧来理解。这提供了一种形式主义，可以将平衡点解——自由度问题[38]——推广到运动轨迹。

5.1 主动推理和优化控制

主动推理通过用关于状态转换或流的先验信念替换价值或成本函数来实现最优控制。 [39]这利用了贝叶斯滤波与贝尔曼方程的解之间的密切联系。然而，主动推理开始于（先验）流 $f=\Gamma \cdot \nabla V+\nabla \times W$ 用标量 $V(x)$ 和向量 $W(x)$ 状态空间的值函数（参见 Helmholtz 分解）。这里， $\Gamma$ 是随机波动的幅度，成本是 $c(x)=f\cdot \nabla V+\nabla \cdot \Gamma \cdot V$ 先验溢出 $p({\tilde {x}}\mid m)$ 诱导先验状态 $p(x\mid m)=\exp(V(x))$ 即适当的前向 Kolmogorov 方程的解。 [40]相比之下，最优控制在给定成本函数的情况下优化流，假设 $W=0$ （即，流没有卷曲或具有详细的平衡）。通常，这需要求解逆向 Kolmogorov 方程。 [41]

5.2 主动推理和最优决策（博弈）理论

通过将效用函数吸收到先验信念中，在主动推理中处理最优决策问题（通常表述为部分可观察的马尔可夫决策过程）。在这种情况下，具有高效用（低成本）的状态是代理希望占用的状态。通过为生成模型配备模拟控制的隐藏状态，最小化自由能变化的策略（控制序列）会导致高效用状态。 [42] 在神经生物学上，多巴胺等神经调节剂被认为通过调节编码预测误差的主细胞的增益来报告预测误差的精度。 [43]这与多巴胺在报告预测错误本身 [44] 和相关计算帐户中的作用密切相关，但在形式上有所不同。 [45]

5.3主动推理和认知神经科学

主动推理已被用于解决认知神经科学、脑功能和神经精神病学中的一系列问题，包括动作观察、[46] 镜像神经元、[47] 扫视和视觉搜索、[48][49] 眼球运动、[50]睡眠、[51] 幻觉、[52] 注意力、[35] 动作选择、[43] 意识、[53] [54] 歇斯底里症 [55] 和精神病。 [56]主动推理中对动作的解释通常取决于大脑具有无法更新的“顽固预测”的想法，从而导致导致这些预测成真的动作。 [57]

5.4 主动推理和组织实践

主动推理已被应用于分析使用新技术的组织中的手工和工业精神运动工作。 [58][59][60]更广泛地说，有人认为主动推理是整个组织生命周期（包括营销、工业工程和质量管理）工作实践的基础。 [61]此外，现代组织实践的外部性已经在多尺度自由能和主动推理方面进行了分析。 [62]此外，主动推理已与其他框架相结合，例如自适应校准模型 [63] 和系统工程 [64]，以应对组织实践中的挑战。有人认为，与理论神经生物学的专业术语和数学相比，对组织实践日常经验的个人反思可能为理解主动推理提供更好的起点。 [65]

人工智能：自由能理论，AI未来的数学模型相关推荐

通用AI——未来真正强健的人工智能？
来源:王宏琳科学网博客一本新书纽约大学马库斯(Gary Marcus)教授和戴维斯(Ernest Davis)教授2019年新书(参考资料[1])的书名,颇吸引眼球:<Rebooting A ...
2020世界人工智能大会 -- 落地AI，赋能未来
2020世界人工智能大会 -- 落地AI,赋能未来 7月9日,2020世界人工智能大会云端峰会在上海举办.尽管线上举办,但今年的大会仍不失热闹:截至9日中午12点半,开幕式直播已有2000余万人次观 ...
ai人工智能的本质和未来_人工智能手中的网络安全的未来
ai人工智能的本质和未来 A recent Synack Report claims that combining cybersecurity talent and AI-enabled techno ...
人工智能已到瓶颈！ AI未来发展方向
AI泰斗张钹:AI最重要的能力是知识,而不是数据阿尔法狗打败围棋高手.索菲亚任你问答.无人车陆续量产,人工智能正日益为人类社会带来不可思议的改变.人工智能一方面在不断挑战人类的想象力,一方面又显得十 ...
乐迪智能陪伴机器人_【团品】AI未来人工智能陪伴机器人（爆款复团）
每日一团今日AI未来人工智能陪伴机器人复团啦一款儿童智能陪护机器人基于超脑技术搭载类人脑TYOS系统可以做到像人类一样思考学习买一个让它更好的陪伴孩子健康成长智能机器人内含语音聊天,中 ...
ai人工智能的本质和未来_人工智能的未来在于模型压缩
ai人工智能的本质和未来 The future looks towards running deep learning algorithms on more compact devices as an ...
人工智能发展方向是什么？AI如何改变世界？《AI未来》
书籍名称:AI未来书籍格式:epub/mobi 豆瓣评分:7.2分下载地址:http://www.jingdouwang.cn/zcsj/hlwsw/374.html 人工智能发展方向是什么?AI ...
ai人工智能的本质和未来_是人工智能手中的网络安全的未来AI 1
ai人工智能的本质和未来 Chinese philosophy yin and yang represent how the seemingly opposite poles can compleme ...
ai人工智能的本质和未来_是人工智能手中网络安全的未来AI 3
ai人工智能的本质和未来 The Use of Artificial Intelligence for Cyber Defense 人工智能在网络防御中的应用 The possible cyber d ...

人工智能：自由能理论，AI未来的数学模型

序