Artificial General Intelligence: Concept, State of the Art, and Future Prospects

Artificial General Intelligence: Concept, State of the Art, and Future Prospects（强人工智能：概念，前沿技术和未来展望）

返回论文和资料目录

1.论文简介

如标题所示，本文主要回顾了强人工智能的定义，前沿技术和未来展望。虽然，这篇论文来自2014年，但依然对我们现在了解认知AGI很有价值。

2.引言和思考

人工智能概念第一次被提起是在1956年的一次会议上，其实当时的人工智能的概念更是一种强人工智能的理解。即其定义理解为：我们能否创造出具有与人类相当或更大的一般智能的思维机器？

那么，逐渐到了后面，我们通常理解认为目前的机器学习，深度学习，强化学习等这些算法模型等是弱人工智能，而理解强人工智能（后面详细介绍该定义）为强人工智能。

我们可以发现现有常见人工智能算法技术是种“narrow AI”，即只能在特定的环境下处理特定的问题。例如，基于卷积神经网络CNN的图像分类任务往往不能用于自然语言处理或其他计算机视觉相关任务。

尽管，现在人工智能中有迁移学习技术，但其还是远远弱于人的迁移学习能力。这里大家可以自己思考下为什么？

那么，强人工智能AGI通常可以理解为narrow AI的一个反义词。一个简单对AGI的定义是：可以处理不同任务在不同环境下均能解决问题的一个系统。不过注意的是并非要求这样的一个AGI系统能处理所有任务才能被称为AGI，通常可以理解其为现有的AI系统和人脑之间的一个中间物。当其能同时处理一些magic任务时，我想大家都觉得其“有点东西的话”，其被称为一个初步的AGI未尝不可。例如，前两年大火的GPT3模型，可能有些人真觉得“有点东西”了。

当然，不同的人对AGI定义理解仍然不同，下面我们展开讨论AGI的相关问题。

2.什么是强人工智能？AGI的定义。

我们先回顾下AGI研究社区下，大家认为的比较普遍的关键特征思路：

AGI具备能够在各种不同的环境和环境中处理实现各种目标和执行各种任务的能力。
AGI具备能够处理创造者（研究者，程序员）意料之外问题的能力
AGI能够总结获得的知识，并将该知识应用到其他问题
AGI在当前条件下不可能实现
现实生活中如果实现了AGI容易偏向于具体的某项任务，GPT3？
人的智能大于现有AI的智能，更大于其他动物的智能
AGI有望超过人的智能

这里给出大家对AGI的核心论点假设。

我的理解是：具有创造和学习的集成智能，具有很强的智能泛化能力！大家见仁见智。
这个观点几乎被所有的AGI的研究人员接受！

这里需要注意的是，作者和我有个公共的观点是AGI与现有的AI技术并不是没有关系的，两者并没有淘汰关系，AGI研究中也可以使用到现有很多先进的AI技术。例如，现有AGI中有些人就研究脉冲神经网络的，有些人研究强化学习的等等。这些人也都希望能通过现有技术逐步走向AGI。

3.AGI研究现状

作者给出的AGI研究现状分类是：

Symbolic（符号逻辑派）
Emergentist（涌现智能派）
Neuroscience （类生物神经系统派）
Evolutionary （进化计算派）
DEVELOPMENTAL ROBOTICS ARTIFICIAL LIFE（机器人学习派）
Hybrid（混合方法派）
Universalist（通用算法理论派）

注意的是，当前的研究工作并非都致力于一个human-like智力的通用智能。但这些方法都涉及到：工作和长期记忆，陈述（表达）和反应处理，知觉、行动和强化学习、元认知等等。

当前，AGI领域没有一个很好的理论架构，所以不同的研究人员可能提出不同的实现方式。

当然，还需要注意的是目前AGI的测试方法。最经典的当然是图灵测试（Turing test），还有例如从小学到大学毕业的考试测试等。这个测试方法也是有很多，众说纷纭。

总结下，AGI是个朝阳研究领域，尽管很多年了。

我在第5部分详细说明当前研究状况。

4.AGI具备的能力

下面给出认知科学家、心理学家和计算机科学家讨论的一个AGI具备的能力列表（来自Mapping the Landscape of Human-Level Artificial General Intelligence）。这个列表的要求很多很高，是个畅想，在这不讨论能不能实现的问题。

认知（感知）能力

视觉：图像和场景分析和理解
听觉：识别与常见物体相关的声音；了解在嘈杂的环境中，哪些声音来自哪个来源
触觉：识别共同的物体并使用单独的触摸来执行共同的行动
跨模态：整合来自各种感官的信息
本体感觉：感知和理解它的身体在做什么

行为能力

物理技能：操作熟悉和不熟悉的物体
工具的使用，包括灵活地使用普通物体作为工具
导航，包括在复杂和动态的环境中

记忆能力

隐式记忆：内容不能概括的记忆
工作记忆：当前/最近经历的内容的短期记忆（意识）
情景记忆：第一人称经历的记忆（实际的或想象的）归因于一个特定实例的代理作为主体的主体
语义（事实记忆）：关于事实或信念的记忆
程序记忆：（身体或精神）行为的顺序或平行组合的记忆，通常是习惯的（内隐的）

学习能力

模仿：自发地采取主体看到他人执行的新行为
强化：从教师和/或环境传递的积极和/或消极的强化信号中学习新的行为
互动语言教学
从书面媒体学习
通过实验学习

推理能力

推理扣除，从不确定的前提观察到世界
诱导，从不确定的前提观察到世界
观察到世界的因果推理，从不确定的前提观察到世界
物理推理，基于观察到的“模糊规则”朴素物理
联想推理，基于观察到的时空关联

计划能力

战术的
战略的
身体的
社交的

注意力能力

视觉注意
社交注意
行为注意

目标能力

子目标的创建，基于主体的预先设定的目标及其推理和计划
基于情感的动机
情绪的控制

情绪能力

表达情感
感知/解释情感

建模和其他

自我意识
心理理论
自我控制
他人意识
同理心

社交能力

适当的社会行为
关于社会关系的沟通和导向
关于社会关系的推断
在组织松散的活动中的群体互动（例如游戏）

交流能力

实现目标和表达情感的手势交流
在生活环境中使用自然语言的语言交流
关于物体和场景的图片交流
语言习得
跨模态交流

估计能力

其环境中物体的数量计数
简单、可靠的小数字算术
观察到的关于定量性质的实体的比较
使用简单、适当的工具进行测量

创造能力

物理：对对象的创造性建设性游戏
概念发明：概念形成
语言发明
社交建构（例如，集合新的社会群体，修改现有的社会群体）

5.研究现状细节描述

5.1符号逻辑派AGI（ Symbolic AGI Approaches）

这是个很传统的研究很久的一类方法，其认为AGI可以类似人脑那样通过符号表示整个世界，并基于符号实现学习创造，理解，推理等等功能。

这里文中列出来许多相关文献：例如Building Large Knowledge-Based Systems: Representation and Inference in the Cyc Project中实现了基于谓词逻辑作为知识表示的AGI架构，并使用逻辑推理技术来回答问题，并从旧知识中获取新知识。Cyc最独特的方面是Cycorp已经积累的大型常识性知识数据库（数百万条知识，由受过特殊训练的人以谓语逻辑格式输入）等。

支持符号派的观点是：符号思考是人与其他动物的最大区别，其是AGI的关键。它有望通过符号的方式实现一个类似人脑的神经过程的功能。

反对符号派的观点是：基于符号结构无法产生突变的结构和动态。符号只是更简单的神经过程和认知的抽象。使用符号会缺失底层的这些特性，永远无法产生AGI。

5.2涌现智能派AGI（Emergentist AGI Approaches）

相比基于符号的AGI，这类方法相对较晚出现。其关键不同是使用一个“亚符号”（例如神经元的信号）代替符号，并设计合适的认知智能框架（一个集成的智能系统）来实现AGI。

这里文中列出来许多相关文献：例如An explicitly pluralistic cognitive architecture，基于早期和相关的IBCA（基于综合生物认知结构），寻求模拟大脑中的分布式信息处理，特别是后叶和额叶皮质和海马体。到目前为止，这一谱系的结构已经被用来模拟人类的各种心理和心理语言行为，但还没有被证明会产生更高层次的行为，如推理或推理。

支持涌现派的观点是：大脑由一组简单的元素（不同脑区）组成，复杂地自我组织成动态结构（脑区之间高度合作），所以实现AGI的方式自然类似。其如果得到了一定的认知智能，将产生比符号派更强的灵活性和适应性。

反对涌现派的观点是：大脑确实是一个自组织的神经网络，一个复杂的架构。我们需要的是这个架构的抽象，非具体神经元等底层机制。

5.3类生物神经系统派（Neuroscience based AGI Approaches）

其思路是通过数学模拟人脑的神经元工作，理解人脑的工作原理后，可以尝试使用计算神经科学实现。

这里文中列出来许多相关文献：例如IBM 的“Blue Brain Project”（The blue brain project），它使用了一个“蓝色基因”超级计算机来模拟（在离子通道的详细水平上）大鼠大脑皮层柱的神经信号。该项目的长期目标是“能够模拟人类大脑的整个皮层”，目前仍在“人类脑项目”的标签下提供大量政府资金。等

支持类生物系统的观点是：大脑是我们唯一的一个具有高一般智力的系统的例子。所以，模拟大脑显然是实现AGI的最直接的途径。神经科学和计算机硬件都在迅速发展，一旦我们了解了基于大脑的AGI是如何工作的，我们就很可能会获得构建更好的AGI系统的知识。

反对类生物系统的观点是：神经科学正在迅速发展，但仍处于原始阶段；我们对大脑的知识是极其不完整的，我们缺乏对大脑如何学习或代表抽象知识等基本问题的理解。大脑的认知机制可以很好地在神经湿件上有效运行，但目前的计算机硬件有非常不同的特性；给定一定数量的数字计算硬件，人们可以通过制作适合于硬件的AGI算法来创建更智能的系统，而不是试图将为神经湿件优化的算法强制到一个非常不同的基底上。

5.4人工生命派（ ARTIFICIAL LIFE based AGI Approaches）或称为进化计算派（Evolutionary Computation to AGI）

这类方法企图模拟出整个进化的生态系统，而不是模拟大脑。通过这么个进化的环境，包括些化学反应等能够产生智能体甚至是AGI。

支持人工生命派的观点是：它有可能制造人工生命形式，随着发展，可以精确有效地利用数字计算机架构，甚至量子计算机或其他激进的新计算结构来模拟。

反对人工生命派的观点是：一个生态系统比单个的大脑或身体需要更多的计算资源。目前还不清楚我们是否有足够的计算资源来以可行的成本实现个体人类层面的思维。

5.5机器人学习派（DEVELOPMENTAL ROBOTICS ARTIFICIAL LIFE based AGI Approaches）

这类方法试图利用机器人学习实现AGI。

支持机器人学习派的观点是：人类儿童大多是通过无监督的探索环境来学习的——共同利用身心来适应世界，而且越来越复杂。这是我们所知道的，让心灵从无知和无能转向知识和能力的唯一途径。

反对机器人学习派的观点是：在技术发展的这个阶段，机器人与人体相比显得极其粗糙，因此不能像一个人类孩子那样，为身心学习提供足够的基础设施。由于机器人技术的早期阶段，机器人项目不可避免地专注于机器人的细节，似乎从来没有达到解决复杂认知问题的阶段。此外，目前还不清楚详细的感觉运动基础是否真的是创造一个AGI进行人性化推理和学习的必要条件。

5.6混合架构派（Hybrid AGI Architectures based AGI Approaches）

这类方法试图结合不同的子系统来实现AGI，例如一个符号系统和亚符号系统。这类方法认为，实现人类水平智能的人工智能系统将涉及符号处理和非符号处理的结合。
人类的智能AGI涉及到多个组件的协同交互。

这里文中列出来许多相关文献：例如是一种混合架构，它将对“外显知识”进行推理的符号组件和对管理“内隐知识(implicit knowledge)”的连接主义组件结合在一起。内隐知识的学习可以通过神经网络、强化学习或其他方法来完成。符号方法和亚符号方法的整合是强大的，但仍有大量的缺失，如情景知识、学习和创造力。在符号部分和亚符号部分的学习是单独进行的，而不是动态耦合的。

支持混合框架派的观点是：大脑是一个复杂的系统，有多个不同的部分，根据不同的原则构建，但都紧密地工作在一起。不同的不同方面在不同的表征和学习机制下效果最好。如果我们正确地设计了一个混合系统的不同部分，他就可以让不同的部分协同工作，每个部分都贡献自己的优势来帮助克服各个子系统的弱点。生物系统往往是混乱的、复杂的和整合的；寻找一个单一的“一般智能算法”是一种不恰当的尝试。

反对混合框架派的观点是：把一堆不完善的系统粘在一起并不能形成一个足够的系统。大脑使用一个统一的基础设施（一个神经网络）是有充分理由的；当你试图把不同的组件连接在一起时，你会得到一个脆弱的系统，不能很好地适应，因为不同的组件不能以完全的灵活性一起工作。混合系统是不优雅的，并违反了“奥卡姆的剃须刀”的启发式。

5.7通用算法理论派（Universalist AGI Approaches）

这类方法试图利用一个算法实现AGI。当一个算法有大量的数据，充足的计算资源后，其可能会产生超乎想象的智能。近年的GPT-3为代表的一些模型就有点这个味道了。

支持通用算法理论派的观点是：在一些具体的问题上，通用算法已经能做得很好。当计算资源足够，数据足够时能产生意料之外的效果。

反对通用算法理论派的观点是：试图从这种简单的方法“缩小”到现实的方法并不是很好，因为现实世界的AGI智能基于各种复杂的、重叠的架构机制，这些机制与大量计算资源的情况无关。

6.强人工智能AGI的架构/框架

在这，我直接给出文中给出的架构图，这些架构来自于多篇工作。

7.强人工智能的测试，度量方法，指标

测试方法

经典的图灵测试
虚拟世界图灵测试：人类控制虚拟世界任务与AGI交互，进行图灵测试，相比经典图灵测试，其可能包括行为互动等
文本压缩
在线大学生考试
机器人大学生考试
人工科学家测试：测试AGI做高质量的、原创的科学研究，包括选择研究问题、阅读相关文献、撰写和发表论文等
“咖啡测试”：进入一个普通的美国房子，找出如何制作咖啡，包括识别咖啡机，找出按钮的作用，找到橱柜里的咖啡，等等。
故事理解：阅读一个故事，或者通过视频观看，然后回答关于发生了什么的问题（包括不同抽象层次的问题）
通过小学阅读课程（包括阅读和回答有关一些关于图画书以及纯文本书籍的问题）
仅根据经验或根据经验加阅读说明学习玩任意的电子游戏
通过儿童心理学家的典型评估，旨在判断一个人类学龄前学生是否通常具有智力能力