用热传导方程来指导自监督学习

©PaperWeekly 原创 · 作者 | 苏剑林

单位 | 追一科技

研究方向 | NLP、神经网络

用理论物理来卷机器学习已经不是什么新鲜事了，比如上个月介绍的《生成扩散模型漫谈：从万有引力到扩散模型》就是经典一例。最近一篇新出的论文《Self-Supervised Learning based on Heat Equation》[1]，顾名思义，用热传导方程来做（图像领域的）自监督学习，引起了笔者的兴趣。这种物理方程如何在机器学习中发挥作用？同样的思路能否迁移到 NLP 中？让我们一起来读读论文。

基本方程

如下图，左边是物理中热传导方程的解，右端则是 CAM [2]、积分梯度 [3] 等显著性方法得到的归因热力图，可以看到两者有一定的相似之处，于是作者认为热传导方程可以作为好的视觉特征的一个重要先验。

▲ 热方程的热力图（左）和视觉模型的热力图（右）

具体来说，物理的热传导方程为

其中对应图像的“宽”和“高”两个维度，对应该处的特征值。由于本文主要做的是静态图像而不是视频，所以没有时间维度，为此可以简单地让。由于特征通常是多维向量而不是标量，所以我们将替换为，得到

这被称为“拉普拉斯方程”，它是各向同性的，而图像并不总是各向同性的，所以我们可以补充一个矩阵，来捕捉这种各向异性：

然而这是一个二阶方程，后面我们将会看到它在离散化上会比较麻烦，所以作者提出进一步将它转化为一阶方程组

可以验证，只要，那么上式的解必然也是方程（3）的解，所以原论文以方程（4）为出发点。

离散重构

说了那么多，其实原论文的思路很简单，它就是认为原始图像经过 encoder 后得到的特征，应该尽量满足方程（4）。具体来说，图像经过 encoder 后，在 global pooling 之前，得到的是的 feature map，我们将它看成是个维向量，或者说是函数，其中是该向量的位置，那么函数应当尽量满足方程（4）。

怎么促成这一点呢？根据方程（2），我们可以得到离散化格式

这意味着我们可以通过当前位置的特征来预测邻近位置的特征。于是原论文提出了名为“QB-Heat”的自监督学习方法：

每次只输入一小部分图像，经过 encoder 后的到对应的特征，通过离散化（5）来预测完整图像的特征，然后将特征传入一个小的 decoder 来重建完整图像。

示意图如下：

▲ QB-Heat框架示意图

对比分析

关于 QB-Heat 的介绍就到这了，原论文剩下的地方是实验结果以及一些（笔者认为）不大相关的分析，本文就略过了，有兴趣的读者直接看原论文就好。

如果读者读过 MAE 模型（参考《Dropout视角下的MLM和MAE：一些新的启发》），那么应该会感觉 QB-Heat 跟 MAE 有很多相似之处——都是输入部分图像到 encoder 中，然后重构完整图像，同样都是 encoder 大而 decoder 小。

除了 mask 方式外，两者最大的不同地方就在于 decoder 的输入，QB-Heat 通过近似（5）为图像的剩余部分预测了特征，而 MAE 则是直接将剩余部分特征当成同一个 [MASK]。可以想像，通过近似（5）自然会比简单粗暴地填充为 [MASK] 要更合理些，因此 QB-Heat 比 MAE 好也算是情理之中。

▲ MAE模型示意图

式（5）决定了 QB-Heat 只能通过中心来预测四周（否则中间插值处理起来比较麻烦），因此 QB-Heat 的 mask 方式就只能是保留一块连续的方形区域而 mask 四周，如下图所示。

也正是因为 QB-Heat 的输入是原始图像的一块连续子图，所以它的 encoder 既可以用 Transformer 也可以纯 CNN 模型来搭建。相比之下，MAE 是随机 mask 掉原始图像的一些像素，这样一来要想达到节省 encoder 计算量的效果，MAE 的 encoder 就只能用 Transformer 模型，因为只有 Transformer 模型可以达到缩小序列长度又保留位置信息的效果。

▲ QB-Heat的Mask方式示意图

个人思考

物理视角看起来固然美妙，但很多时候都只是“幌子”（非贬义），我们更重要的是要透过现象看本质，思考其生效的真正机制。

首先，QB-Heat 的一个很明显的“槽点”就是标题和方法都冠以热传导方程之名，但热传导方程的出场时间真的是“不超过 3 秒”，给人可有可无的感觉。事实上，论文的出发点应该是式（2），即拉普拉斯方程。

虽然形式上拉普拉斯方程相当于热传导方程的静态解，但不管是数学上还是物理上的分类和研究，这两者都属于不同的两个分支，所以热传导方程之名实在是有点勉强。其次，拉普拉斯方程也不是用到了原始的式（2）或（3），而是简化版的式（4），应用时则是对应于近似式（5）。撇开物理背景，直接看式（5），它陈述了这样的一个假设：

邻近的特征向量应当尽可能相似，它们之间应当尽可能只差同一个线性变换。

说白了，它通过连续性和线性性假设给特征向量做了显式预测，从而起到了隐式的正则化作用。这不禁让笔者想起了在《从SamplePairing到mixup：神奇的正则项》[4] 介绍过的 mixup，它也是通过显式构造数据的方式，实则上也给模型加入了隐式的线性正则化，从而增强了模型最终的泛化能力。

对于笔者来说，看到CV中的方法，通常就会想能不能迁移到 NLP 中去。那么 QB-Heat 有没有可能做这个迁移呢？相比 MAE，QB-Heat 做出的最大改动是原始图像的剩余部分特征应当是通过某些假设来预测出来，而不是统一地用 [MASK] 代替。

QB-Heat 对 CV 用的是连续性和线性性假设，那么对于 NLP 来说能否复制呢？语言本质上是时间序列，只有一个变化维度，这就相当于问能否假设相邻句子之间的句向量相差同一个线性变换？看上去自然语言似乎不应该具有那么好的连续性，但是如果仅仅从线性正则化的角度来理解，又似乎没什么不可行的，毕竟 mixup 在 NLP 中的很多任务也 work 得挺好。

另外，如果是随机 mask 掉一部分 token，而不是像 QB-Heat 那样只保留连续的一个子区间，那么我们似乎也可以直接用两边位置的特征向量做线性插值来预测中间位置的特征，这样一来也是满足连续性和线性性假设，不知道这样处理效果是否会好？这些都是比较初浅的想法，有待实验验证。

文章小结

本文介绍了 QB-Heat，这是一种用热传导方程来指导自监督学习的方案，它跟 MAE 的区别是用简单的预测而不是 [MASK] 来作为剩余部分图像传入到 decoder 的特征。

参考文献

[1] https://arxiv.org/abs/2211.13228

[2] https://arxiv.org/abs/1512.04150

[3] https://kexue.fm/archives/7533

[4] https://kexue.fm/archives/5693

更多阅读

#投稿通道#

让你的文字被更多人看到

如何才能让更多的优质内容以更短路径到达读者群体，缩短读者寻找优质内容的成本呢？答案就是：你不认识的人。

总有一些你不认识的人，知道你想知道的东西。PaperWeekly 或许可以成为一座桥梁，促使不同背景、不同方向的学者和学术灵感相互碰撞，迸发出更多的可能性。

PaperWeekly 鼓励高校实验室或个人，在我们的平台上分享各类优质内容，可以是最新论文解读，也可以是学术热点剖析、科研心得或竞赛经验讲解等。我们的目的只有一个，让知识真正流动起来。

用热传导方程来指导自监督学习相关推荐

《预训练周刊》第66期：智源2022大模型创新论坛、 ChatGPT手把手debug代码、AI与物理的交融...
No.66 智源社区预训练组预训练研究观点资源活动周刊订阅告诉大家一个好消息,<预训练周刊>已经开启"订阅功能",以后我们会向您自动推送最新版的&l ...
React-mentions 库介绍
React-mentions 库介绍最近需要做一个类似微博评论功能@用户的功能,手写JS的效率很低,所以使用 React-mentions 库实现这个功能.看了一下网上没中文介绍,所以自己看完英文介 ...
发展通用智能，需要无监督学习
https://mp.weixin.qq.com/s?__biz=MjM5NTg0NDE1Mw==&mid=2652601098&idx=3&sn=0dedb8212884d4 ...
干货丨机器学习和深度学习概念入门
对于很多初入学习人工智能的学习者来说,对人工智能.机器学习.深度学习的概念和区别还不是很了解,有可能你每天都能听到这个概念,也经常提这个概念,但是你真的懂它们之间的关系吗?那么接下来就给大家从概念和特 ...
什么是机器学习？有哪些分类？怎样上手开发？终于有人讲明白了
导读:本文首先介绍何谓机器学习,以及与机器学习相关的基本概念,这是学习和理解机器学习的基础.按照学习方式的不同,机器学习可以分为不同类型,如监督学习.无监督学习.强化学习等,本文会详细介绍它们各自的特 ...
东南大学提出条件自监督小样本学习方法，显著提升小样本分类准确率
©作者 | 安悦瑄单位 | 东南大学PALM实验室研究方向 | 小样本学习.自监督学习写在篇首如何从有限的样本中学习可迁移的特征表示是小样本学习(Few-Shot Learning)的一个关键 ...
推荐系统中的Embedding应用
文章目录 1. Word2Vec 1.1 Skip-gram 2. Airbnb中的Embedding 2.1 用在相似推荐中的List Embedding 2.1.1 优化一:Booked List ...
C++程序设计课程中的团队建设
(本文为在实施团队建设初期给学生分享的一段文字.建设开始,发现了其威力和潜力,当然也发现了不少问题,待解决.) 大学的课程,进度快,学生和老师人数的比例大.学习进程,至少在感觉上,有点失控的样子,老师 ...
人工智能，数字经济时代的新生产力
简介: 在数字经济时代,任何人.任何行业都需要用云计算.今天,我打开手机淘宝,用支付宝扫二维码都是云计算再给我们提供服务.没有云计算就没有今天普惠的数据智能服务.同样,云计算带来数字生产力的提升,不用 ...

用热传导方程来指导自监督学习

用热传导方程来指导自监督学习相关推荐

最新文章

热门文章