学界 | DeepMind想用IQ题测试AI的抽象思维能力，进展还不错

来源：大数据文摘

摘要：抽象理解能力一直是人类引以为豪的智慧来源。

阿基米德基于对物体体积的抽象理解，悟到了物体的体积与物体浮力之间的关系。这就是抽象推理的魔力。

基于神经网络的机器学习模型取得了惊人的成绩，但是测量其推理抽象概念的能力却是非常困难的。

虽然人工智能已经可以在策略游戏的对战中战胜人类，但是却在一些简单任务方面“无能为力”，特别是需要在新环境中发现并重新构建抽象概念。

举个例子，如果你只训练AI计算三角形的属性，那么，你训练的AI系统永远无法计算正方形或者其他没有训练过的形状的属性。

又比如下边这道简单的IQ测试题。

IQ测试给了DeepMind灵感，是不是也能用其测量AI的推理能力呢？

在以往解决通用学习系统努力的基础上，DeepMind最新论文提出了一种如何测量机器模型认知能力的方法，并表达了关于泛化的一些重要见解。

要构建更好、更智能的系统，使得神经网络能够处理抽象概念，需要对其进行改进。

此方法的灵感来源于IQ测试。

创建抽象推理数据集

标准的人类智商测试中，通常要求测试者通过应用他们日常经验学习的原则来解释感知上简单的视觉场景。

例如，人类测试者可能已经通过观察植物或建筑物的增长，通过在数学课上学习加法，或通过跟踪银行余额获取利息增长的情况来了解“渐进”（一些属性能够增加的概念）。

然后把这些感性认识上升到理性认识，从而对测试题进行推断预测，例如图形的数量、大小，甚至沿着序列增加颜色强度。

现在机器学习仍然无法理解一些看似简单的“日常体验”，这意味着，人类无法轻易地衡量AI将知识从现实世界转移到视觉推理测试的能力。

基于此认知，DeepMind设计一个实验，希望使人类视觉推理测试得到很好的利用。这一研究不是从日常生活到视觉推理问题(如人类测试)的知识转移，而是研究知识从一组受控的视觉推理问题转移到另一组问题。

为实现这一目标，DeepMind构建了一个用于创建矩阵问题的生成器，涉及一组抽象因子，包括“渐进”之类的关系以及“颜色”和“大小”等属性。虽然问题生成器使用了一小组潜在因子，但它仍然会产生大量独特的问题。

接下来，DeepMind约束生成器可用的因子或组合，以便创建用于训练和测试模型的不同问题集，以度量模型可以推广到留存的测试集的程度。

例如，创建了一组谜题训练集，其中只有在应用于线条颜色时才会遇到渐进关系，而在应用于形状大小时会遇到测试集。如果模型在该测试集上表现良好，它将提供推断和应用抽象概念的能力的证据，即使在之前从未见过进展的情况下也是如此。

有希望的抽象推理证据

在机器学习评估中应用的典型的泛化机制中，训练和测试数据来自于相同的基础分布，测试的所有网络都表现出良好的泛化误差，其中一些在略高于75％的情况下实现了令人印象深刻的绝对性能。性能最佳的网络明确地计算了不同图像面板之间的关系，并且并行地评估了每个潜在答案的适用性。DeepMind将此架构称为Wild RelationNetwork（WReN）。

当需要在先前看到的属性值之间使用属性值“插值”来推理，以及在不熟悉的组合中应用已知的抽象关系时，模型的泛化效果显著。然而，在“外推”机制中，同样的网络表现得糟糕得多，在这种情况下，测试集中的属性值并不与训练中看到的值处于相同的范围内。

这种事情发生在当训练集中有深颜色的物体而测试集中是浅颜色的物体的谜题中。当模型被训练来应用以前所见的关系(比如形状的数量)到一个新的属性(如大小)时，泛化性能也会更糟。

最后，当训练模型不仅预测正确的答案，而且还预测答案的“原因”（即应该考虑解决这个难题的特定关系和属性)时，DeepMind称观察到了改进的泛化性能。

有趣的是，在中性分割中（the neutral split），模型的准确性与它推断矩阵下正确关系的能力密切相关：当解释正确时，模型会选择当时正确的答案的概率为87%，但当它的解释错误时，性能下降到只有32%。这表明，当模型正确地推断出任务背后的抽象概念时，能够获得更好的性能。

更微妙的泛化方法

目前的文献关注于基于神经网络的机器学习方法的优缺点，通常是基于它们的能力或泛化的失败。DeepMind的结果表明，得出关于泛化的普遍结论可能是没有帮助的：测试的神经网络在某些泛化状态下表现得很好，而在其他状态下表现得很差。

它们的成功是由一系列因素决定的，包括所使用的模型的架构，以及模型是否被训练为其选择的答案提供可解释的“原因”。在几乎所有的情况下，当需要推断出超出其经验的输入或处理完全陌生的属性时，系统表现很差；在这个至关重要的研究领域为未来的工作创造一个清晰的重点。

未来智能实验室是人工智能学家与科学院相关机构联合成立的人工智能，互联网和脑科学交叉研究机构。

未来智能实验室的主要工作包括：建立AI智能系统智商评测体系，开展世界人工智能智商评测；开展互联网（城市）云脑研究计划，构建互联网（城市）云脑技术和企业图谱，为提升企业，行业与城市的智能水平服务。

如果您对实验室的研究感兴趣，欢迎加入未来智能实验室线上平台。扫描以下二维码或点击本文左下角“阅读原文”

学界 | DeepMind想用IQ题测试AI的抽象思维能力，进展还不错相关推荐

python快速入门【六】----真题测试
python入门合集: python快速入门[一]-----基础语法 python快速入门[二]----常见的数据结构 python快速入门[三]-----For 循环.While 循环 python ...
DeepMind研究：测试神经网络的抽象推理
文章来源:ATYUN AI平台机器能学会抽象推理吗?这是谷歌子公司DeepMind发表的一篇新论文的主题,题为"Measuring abstract reasoning in neural ...
要想成为郎朗，请AI监督练琴可不行！
文 | 魏启扬来源 | 智能相对论(ID:aixdlun) 在决定让小孩学琴之前,老师就一再强调:"学琴是个长久的事情,三分学,七分练,课后的练习很重要!" 作为一个琴童的家长, ...
基于JSP的IQ智力测试系统
目录摘要 2 Abstract 4 第一章引言 8 1.1 课题背景以及研究内容 8 1.1.1 课题背景 8 1.1.2 IQ智商测试系统的特点 8 1.13 IQ测试知识普及 8 第二章 ...
DeepMind《星际争霸2》AI碾压人类遭Gary Marcus猛怼：通用智能就是空谈
来源:新智元本文3635字,建议阅读10分钟. 本文介绍了Marcus对AI碾压人类以及未来通用智能研究意义的质疑. 针对DeepMind前几日发布的<星际争霸2>智能体AlphaSta ...
学Java的逻辑测试题_面试中的逻辑题测试及答案.doc
面试中的逻辑题测试及答案面试中的逻辑题测试及答案魔豆之路首页业界观察Android技术iOS技术分享HTML5技术JAVA & JVM测试技术分享WORDPRESS home 程序员面试秘 ...
用上强化学习和博弈论，EA开发的测试AI成精了
明敏发自凹非寺量子位报道 | 公众号 QbitAI 小人不断跳跃到实时生成的平台上.最后到达终点-- 你以为这是个类似于微信"跳一跳"的小游戏? 但它的真实身份,其实是游戏 ...
是男人就过 8 题--Pony.AI 题 - A String Game
是男人就过 8 题--Pony.AI 题 - A String Game 题目来源题意:给一个串t以及n个t的子串s,两个人每轮可以选择一个s在他的后边添加一个字符满足得到的新串仍是t的子串,第一个 ...
自动化测试工程师_所以你想成为一名测试自动化工程师
自动化测试工程师 I see many people and personally have several friends and acquaintances that are interested ...

学界 | DeepMind想用IQ题测试AI的抽象思维能力，进展还不错

学界 | DeepMind想用IQ题测试AI的抽象思维能力，进展还不错相关推荐

最新文章

热门文章