判别式or生成式：哪一个才能代表视觉理解的未来？

来源：机器之心

几十年来，判别式和生成式方法这两种理解视觉处理的方式引导研究人员走上了不同的道路，但现在二者正融合在一起。

一直以来，视觉系统方面的许多基础工作都以一种非常简单的方式实现：向动物展示图像，测量其神经元的反应，展示另一个，然后重复。

这样的方法建立在一种假设之上：视觉处理可以理解为一种死记硬背的输入输出转换。科学家们研究细胞时，好像它们只是根据图像中存在的视觉特征做出反应，然后可以使用这些反应来区分不同的图像。

虽然这种对视觉系统的理解在很多方面都取得了丰硕的成果，但它总是让一些研究者产生怀疑。一部分人认为，视觉系统的解剖结构和动力学研究结果表明，它不是简单地以「自下而上」的方式做出反应。相反，它可能会基于一个反映世界运行模式的模型生成一些反应。

这种「判别式（discriminative）」与「生成式（generative）」视觉方法之间的争论已经持续了数十年。尽管这两种模型都旨在解释视觉处理过程，但这两种方法源于不同的哲学和数学传统。这种状况导致的后果是，不同的研究人员只使用他们自己喜欢的方法，而不是合作，因此在这两种范式之间产生了一条鸿沟。

近年来，计算机视觉和计算神经科学的进步都表明了这种二元划分方法的局限性，推动了更广泛的视觉处理建模的发展。这就需要双方的代表走到一起，理清各自的观点以及双方的共识和分歧所在。

2021 年 9 月，在虚拟认知计算神经科学 (CCN) 会议的「生成对抗协作（GAC）」开幕活动上，研究人员提交了关于这一主题的提案。

「生成对抗协作」是 CCN 在 2020 年发起的一项流程，旨在让研究者明确、有效地提出科学上的分歧。研究人员可以向 CCN 提交一个有争议的主题提案，少数提案会被选中，进入 GAC 活动的讨论范围。次年，GAC 组织者会提交一份立场论文，列出这些主题领域的进展计划，并在当年的会议上展示该进展。

2021 年的 GAC 有关于视觉系统中的生成和判别模型的主题，由 11 名研究人员组成了一个团队。有些人使用判别方法，有些人使用生成方法，但所有人都对探索两者之间的交集感兴趣。根据他们的提议，这个活动旨在确定「我们的知识遗产是否过度地分化了我们对视觉算法的直觉，使我们陷入了错误的二分法之中。」

「简单快速」与「灵活慢速」

为了构建辩论框架，首先有必要知道什么是判别系统和生成系统。但也许这就是第一个分歧点。

在统计领域，判别模型和生成模型有简单的定义。判别模型是在给定观察结果的情况下计算潜在变量或潜在原因的概率的模型。就视觉处理而言，这些潜在变量就是世界上的物体，而观察结果就是撞击视网膜的光。例如，模型会对图像中的像素进行一些计算，以确定哪些对象最有可能存在。相反，生成模型是计算潜在变量和观察结果的联合概率。这需要知道某些物体在一般情况下存在的可能性，而不仅仅是它们在给定图像中的可能性。

虽然这些不同概率分布的计算在技术上完全不同，但当这些计算映射到大脑时，两者之间的界限开始变得模糊。「如果你仔细观察，一切都会崩溃，」哥伦比亚大学神经科学家、GAC 发言人 Niko Kriegeskorte 说。该领域缺乏对生成模型和判别模型的严格定义，神经科学研究文献中出现的内容则更好地被描述为一组松散的关联。

代表判别一面的模型往往是前馈的、简单的和快速的。例如，深度前馈卷积神经网络就是判别处理的典范。这些模型通常以有监督的方式进行训练：它们学习将图像映射到标签，例如学习对猫和狗的图像进行分类。生成的模型可以接收新图像并快速标记它。像这类网络这样的判别系统通常以自下而上的方式工作，形成对其直接输入的简单响应。由于它们的训练方式，它们也被认为专门用于特定任务，例如物体识别。

相比之下，生成模型速度很慢，但它们也更灵活、严谨，且更具表现力。它们通常依赖于无监督的训练方法，目的是获得对世界统计数据和结构的基本了解，然后将其用于预测。例如，在猫比狗更常见的世界中，生成模型可能会使用爪子的视觉景象来预测长胡须也是存在的，并最终得出图像中有猫的结论。在结构上，这些模型更有可能具有循环连接（recurrent connection），特别是来自更高视觉区域或将预测信号传送到视觉系统的额叶皮层的自上而下的连接。它们也更有可能用概率分布来表示信息，这可能导致与任何给定视觉感知相关的不确定性。

科学家们有理由相信这两种过程都可能在大脑中发挥作用。生成方法的支持者指出其直观的吸引力和与内省（introspection）的一致性。毕竟，我们能以心理意象和梦境的形式产生视觉感知；如果没有任何自上而下的影响或内部世界模型，这种现象是不可能发生的。学习有关世界如何运行的一般原则也可以使生成系统更适应新环境。

在 GAC 活动期间，麻省理工学院的神经科学家和西蒙斯全球大脑合作组织 (SCGB) 的研究员 Josh Tenenbaum 在他的演讲视频中应用了图像过滤器来说明这一点：因为我们的视觉系统知道视频可以使用不同的视觉效果进行过滤，例如颜色和对比度的变化，所以即使它们对我们来说是新的，我们还是能够识别应用了这种效果的图像内容。

判别式方法的支持者指出，它在解释神经数据方面取得了切实的成功。经过训练以对图像进行分类的深度卷积神经网络提供了一些最佳模型，用于预测响应复杂视觉输入的真实神经活动。我们也知道，视觉系统的前馈路径可以非常快速地实现对象分类，这与判别模型是一致的。

这两种模式处于不同的发展阶段，很难比较它们的优势。当前的判别模型可以在实际用途中处理图像，这让它比生成模型更具优势。然而，这可能更多地反映了研究人员可以在计算机上做的事情，而不是大脑可以做的事情。目前，生成模型很难训练和构建，并且只能运行在玩具问题上，而不是视觉系统面临的真实挑战。如果没有像今天的判别模型一样擅长图像处理的模型，生成方法就没有机会在神经活动的定量预测上击败判别模型。它们之间的这种对比有点像将今天的汽车与自动驾驶汽车的对比。自动驾驶汽车可能有一些不错的功能，但如果你今天需要四处奔走，它们不会有太大帮助。

「归根结底，你必须有一个模型来测试，」麻省理工学院的神经科学家和 SCGB 研究员 Jim DiCarlo 说。在 GAC 活动中，代表判别一方的 DiCarlo 展示了在目标识别上训练的判别模型预测神经活动的强大能力。「一旦有人建立了一个新的图像计算模型，只有当时实验数据才能用来判断该模型相对于其他模型的准确性。」

在某种程度上，这从工程的维度减少了关于生成方法与判别方法的争论。即使生成方法具有很多直观的积极意义，研究人员仍然需要让它们在实践中发挥作用，以便与大脑活动进行大规模比较。目前，它们还不能。但生成模型也并不总是处于劣势。鉴于其种种特性，尤其是它们在没有太多标记数据的情况下进行训练的能力，机器学习研究人员希望它们在未来变得有用。

「重要的是，我们不要将我们认为容易或现在可以做的事情，与大脑可以做的事情混为一谈。」罗切斯特大学的神经科学家 Ralf Haefner 在活动中说。

探索的十字路口

正如 GAC 小组成员指出的那样，许多模型并不完全适合某个类别或其他类别。循环判别模型是存在的，一些生成模型也可以很快，诸如此类。哥伦比亚大学的神经科学家 Benjamin Peters 在讨论中说，强制让大脑被统计学家和工程师定义的盒子所框住是有风险的。「我们不应该过于刻板，而应该从算法中汲取灵感。」

例如，视觉系统可以使用判别组件来实现快速和轻松的视觉感知，但仍包含生成元素以实现更深层的功能。或者，一个内置的生成模型可以利用它对世界的预测，来帮助为大脑的判别部分提供训练数据。哈佛大学的神经科学家 Talia Konkle 在她的演讲中主张承认感知和认知之间的分离，感知是一种判别过程，而认知是一种更具生成性的过程。

一些混合方法在机器学习领域已经很流行。例如，在对比学习这种训练方式中，网络学习对相似的事物进行分组（例如同一图像的不同剪裁片段），并区分不同的事物。这种方法具有生成组件 —— 训练不需要显式的目标标签，它创建的表示可以捕获数据中大量的相关统计信息。同时，它也能很好地应用于判别模型的典型前馈结构。它确实学会了区分相似和不同的图像。

鉴于这些模型可能属于同一个范围，一些研究人员质疑关注二元划分是否有意义。「这些真的是我们想要收敛的项吗？」DeepMind 的 Kim Stachenfeld 问道。科学家和工程师们承认，生成式处理和判别式处理之间的明确区分对于构建一个有效的系统来说并不是必需的。这种区分也不是理解大脑所必需的。「如果你认为这是一个非此即彼的问题，那你就错失了重点，」Kriegeskorte 说。「我不确定 10 到 20 年后我们是否还会在这种二元划分方法中考虑这个问题。」

GAC 的部分目的是探索判别式与生成式模型之间的分歧，以此作为推动该领域向前发展的一种手段。

Stachenfeld 认为，这种尝试是有用的，即将视觉系统的方法组织到两个阵营中，然后「看看还剩下什么」，从两个阵营之外的东西可以看出这个领域还需要什么样的新术语和新想法。其他人也认为，这次讨论有助于阐明哪些特征对于每种类型的建模方法是真正必要的，以及如何在大脑中考虑每种思路的证据。Kriegeskorte 指出，在使用这些模型的术语时，他现在「避免了过去经常犯的愚蠢错误」。

这些概念上的进步是否重要？真正的考验将是它们对实验的影响程度。Kriegeskorte 表示，实验设计是一个很难取得真正进展的领域。

加州理工学院的神经科学家和 SCGB 研究员 Doris Tsao 提出了一种实验途径：分离神经系统的生成组件，并在没有关于当前世界状态的前馈输入的情况下研究其对神经活动的影响。先前对胼胝体（连接左右大脑半球的横行神经纤维束）病变患者的研究提供了一些提示。在两个半球之间通路的一部分被切断的情况下，研究人员通过左眼向右半球展示「骑士」之类的词，会导致患者（借助左半球反馈连接的影响）描述骑士的视觉场景，即使没有任何视觉刺激或有意识地意识到这个词。Tsao 认为，在动物身上进行的类似实验可以帮助确定自上而下的生成路径，这些路径负责让人联想到这种图像。然而，对于生成系统的人工隔离是否有助于阐明其在正常情况下的功能，GAC 参与者存在分歧。

大多数参与者都同意需要更多关注大脑生成能力的实验。宾夕法尼亚大学的神经科学家和 SCGB 调查员 Nicole Rust 提出了研究视觉预测的论点，例如预测视频中接下来会发生什么的能力。DiCarlo 说，受到生成处理优点的启发，他打算做更多的实验。

在接下来的一年里，该小组将继续讨论推进研究的具体步骤，并通过出版物和活动与更广泛的社区分享他们的进展。

原文链接：https://www.simonsfoundation.org/2021/12/22/reaching-across-the-aisle-to-find-the-algorithms-of-vision/

技术交流群邀请函

判别式or生成式：哪一个才能代表视觉理解的未来？相关推荐

重磅 | 李飞飞最新演讲：ImageNet后，我专注于这五件事——视觉理解、场景图，段落整合、视频分割及CLEVR数据集
2017中国计算机大会(CNCC2017)于10月26日在福州海峡国际会展中心开幕,大会为期3天. 而就在今天上午,李飞飞.沈向洋.汤道生.马维英等重磅大咖纷纷登台演讲. 据悉,斯坦福大学人工智能实验 ...
重磅 | 李飞飞最新演讲：ImageNet后，我专注于这五件事——视觉理解、场景图，段落整合、视频分割及CLEVR数据集...
2017中国计算机大会(CNCC2017)于10月26日在福州海峡国际会展中心开幕,大会为期3天. 而就在今天上午,李飞飞.沈向洋.汤道生.马维英等重磅大咖纷纷登台演讲. 据悉,斯坦福大学人工智能实验 ...
VALSE2019总结(2)-以人为中心的视觉理解
2. 以人为中心的视觉理解 (ceiwu lu, SJU) 2.1 基于视频的时序建模和动作识别方法 (liming wang, NJU) dataset 两张图: 注意一个区分:trimmed an ...
云栖专辑 | 阿里开发者们的第3个感悟：从身边开源开始学习，用过才能更好理解代码
2015年12月20日,云栖社区上线.2018年12月20日,云栖社区3岁. 阿里巴巴常说"晴天修屋顶". 在我们看来,寒冬中,最值得投资的是学习,是增厚的知识储备. 所以社区特别 ...
学历代表过去，只有学习力才能代表将来，尊重经验的人，才能少走弯路
学历代表过去,只有学习力才能代表将来,尊重经验的人,才能少走弯路有一个博士分到一家研究所,成为学历最高的一个人. 有一天他到单位后面的小池塘去钓鱼,正好正副所长在他的一左一右,也在钓鱼. 他只是微微 ...
基于文心一言的底层视觉理解，百度网盘把「猫」换成了「黄色的猫」
随着移动互联网的一路狂飙,手机已经成为人们的新器官.出门不带钥匙可以,不带手机却是万万不可以的.而手机上,小小的摄像头也越来越成为各位「vlogger」的口袋魔方.每天有超过数亿的照片和视频被上传到百 ...
GPT语言模型：通过生成式预训练改善语言理解 OpenAI 2018
论文链接:https://www.cs.ubc.ca/~amuham01/LING530/papers/radford2018improving.pdf 代码链接:https://github.com ...
视觉理解论文系列(一)——ERNIE-VIL
简介 ERNIE-VIL是百度出品的知识增强视觉-语言预训练模型,首次将场景图知识融入到多模态预训练中,大幅提升了机器的"理解能力".通过在预训练阶段加入场景图预测任务,使得模型能 ...
判别式与生成式模型的区别
判别式模型与生成式模型的区别产生式模型(Generative Model)与判别式模型(Discrimitive Model)是分类器常遇到的概念,它们的区别在于: 对于输入x,类别标签y: 产生式 ...

判别式or生成式：哪一个才能代表视觉理解的未来？

判别式or生成式：哪一个才能代表视觉理解的未来？相关推荐

最新文章

热门文章