从大型语言模型走向人工通用智能AGI

返回论文和资料目录

1.导读

这篇博客主要基于《Sparks of Artificial General Intelligence: Early experiments with GPT-4》文中第9和第10节、以及我自己对当前LLM和AGI的理解。给出大型语言模型走向AGI时 改进的方向。

2.14个问题及改进方向(动态持续更新)

1.缩减模型

模型约减的目标是使用尽可能小的模型达到尽可能优的性能。当前大语言模型的模型规模是10B-500B。未来AGI必然是要普及的,所以缩减模型是一个重点研究方向。

导致的问题

  1. 模型的训练成本和使用成本高,类似ChatGPT等这些优异性能的大模型每训练一次需要上千万美金,而在使用时,模型输入输出一次就需要经过整个大模型,导致使用成本巨大。
  2. 模型难以推广到个人。与世界上第一台电脑类似,如果后续没有个人电脑的普及,相信计算机至今都只存在大型科研或军事用途上。模型大导致现在大模型的研究主要在工业界和少数顶级科研机构上,这不仅导致研究工作开展困难,还使得模型无法推广到平民。这也间接导致了后面模型难以进行个性化的发展。

改进的具体方向:

  1. 从具体模型方面入手,采用更优的神经网络结构,损失函数,优化器,词向量编码。目前已经有少量的工作在这方面取得了一定的成绩,例如LLaMA。
  2. 与工具结合。在一些特定的场景,大模型仍然难以扩展,例如数学计算等。 一个大型语言模型再强也难以具备一个计算器的的数学运算能力。因此,与其不断努力为了保持性能而不降低模型规模,还不如研究如何将一些模型低耦合的能力分给其他工具实现,并如何将工具与大模型整合的技术。与工具结合这一方向详细展开可见第11点。

2.个性化

个性化是指模型为每个用户提供个性化服务。未来AGI必然是要普及的,所以模型如何实现个性化是一个重点研究方向。

导致的问题

  1. 在许多场景,模型需要为个人或组织提供个性化服务。例如,在教育场景中,我们期望模型能够根据学生在学习方面的进步去理解并适应,给出学生不同阶段的学习帮助。同时针对不同的学生,模型需要给出不同的教学方法。再例如,在日常聊天场景中,模型面向小孩和大人的模型输出可能就不一样。针对小孩,模型不应该输出不适合未成年人的内容。同时,聊天中需要注意正确的引导孩子。

改进的具体方向:

  1. 元指令。这是《Sparks of Artificial General Intelligence: Early experiments with GPT-4》给出的一个方法。它的思路是每次通过指令输入的方法,让模型知道当前的用户是谁,之前和他说过什么,目前什么样的输出适合他。虽然这种方法局限性大且不够有效,但确实是最简单的一种思路,目前很火的AutoGPT就是这么干的,确实能够实现一部分个性化能力。

3.长期记忆

长期记忆指大模型需要记住长文本内容,形成新的认知,或类似人类具备情景记忆。这是大模型一个非常大的缺陷,也是实现AGI必然要解决的问题。

导致的问题

  1. 模型无法应对需要长期记忆的场景。例如当使用大模型阅读一本书,模型阅读第2章内容时可能第一章内容就忘了,人物和事件根本记不住。在源代码中,对类和函数的引用可能离定义它们的地方很远。在定理证明中,证明需要利用先前定义的引理。虽然目前GPT-4一次输入支持的最大token数已经提升到25000,但想实现阅读一本书,仍然非常困难。再例如,目前已经有工作研究将机器人与ChatGPT结合,而此时机器人有个很大问题是无法类似人类具备事件记忆,无法记住什么时候发生了什么事,遇见了什么人。

改进的具体方向:

  1. 结合数据库或知识图谱相关技术。目前AutoGPT就采用了这种方法,确实具备了一部分长期记忆能力。
  2. 构建一个长期记忆模型M并结合数据库技术。类似的想法目前清华有做类似的工作ChatDB。

4.置信校准

置信校准指的是模型需要判断事件的真假。当前LLM经常会输出假事实,例如,你让LLM写一首李白的诗,它的输出虽然是诗,但却是它自己瞎编的而不是李白的。你让他给你一篇关于XX领域的参考文献,它的输出像模像样,但真的去谷歌学术上找,发现是找不到对应的文献的。

导致的问题

  1. LLM无法分别是非,它的认知主要基于训练集,不会自己去思考和判断什么是真什么是假。在实际使用的过程中,无法输出保真答案。

改进的具体方向:

5.持续学习

持续学习指的是模型需要根据周围的环境更新自身。模型训练好一次后,需要能够持续不断地学习。

导致的问题

  1. 当前模型无法更新。具体地,存在两种情况。第一种,当一个模型训练好后,假设我们的计算资源得到了更新,我们当前需要一个更大的模型。此时,当前LLM面临的情况是在一个参数量更大的模型上完全重新训练;第二种,当模型在使用时,我们目前比较好的方式是使用RLHF的方法进行微调,使得模型能够一定程度上得到更新,但这种方式不是实时的,而且更新效率低需要对整个模型进行调节。

改进的具体方向:

6.计划和目标

计划和目标指模型需要具备制定计划和目标的能力。

导致的问题

  1. 当模型需要处理的问题复杂时,模型无法制定计划和目标对问题进行简化,进而有效地解决问题。例如,人完成去华山旅游这件事时,需要把这个目标进行分解,再依次完成。比如,首先需要检查自己有多少钱,然后搜索去的交通工具,接着需要订酒店,购买上山物资,再接着规划行动路线,最后坐车回家。其中里面的每个环节可能又可分成多个步骤。比如,订酒店要考虑价格和位置,考虑订几人房等。这么一个复杂目标需要合适的计划,并制定一系列的目标实现。
  2. 另外一方面,模型无法指定提升自己的目标导致无法主动学习,进而使得模型性能无法离线提升。

改进的具体方向:

  1. 指令提示+短期记忆:目前AutoGPT就采取了类似的方式实现,它将一个任务不断通过prompt的方式进行提示和拆解,最终指定多个子目标,一步一步实现。这种方式能够一定程度上实现模型的规划和目标能力。

7.数据集收集和生成

数据集收集和生成指模型需要配合合适的数据集收集和生成方法。

导致的问题

  1. 模型性能不高。近期,LLaMA等大模型论文中已经显示,即使是规模小的大模型,扩大数据集也能帮助进一步提升性能。反过来讲,通过合适的方式收集或生成数据,并进一步用于训练模型可以有效地提升大模型的性能。

改进的具体方向:

  1. 针对数据集收集,可以重点研究模型自主上网收集数据能力。最终,让模型可以在网络上自主收集数据并用于训练提升性能。
  2. 针对数据集生成,可以借助已有的LLM模型生成数据集,帮助提升性能,例如WizardLM模型或Wizardcode,下图给出了一个Wizardcode利用LLM生成针对Code领域的数据的例子。另外,可以研究让模型自动生成数据,再用生成数据训练模型,不断迭代增强性能。最近facebook在计算机视觉领域发表了一篇针对图像分割的论文。其中提到一个名为数据引擎的数据生成方法,使得数据生成和模型训练变成一个闭环,达到了“分割万物”的惊艳结果。

8.情感能力

情感能力指模型需要提升情感能力来帮助提升表现。

导致的问题

  1. 不仅影响平时的模型表现,还导致无法应用于一些需要情感的场景。例如,在与人聊天的时候,如果对方是一个失恋的人。一个带感情的回答,必然优于平铺直叙地讲道理或安慰。未来的宠物机器人或是机器人管家的也是重点研究方向,而这些场景显然需要LLM发展情感能力。

改进的具体方向:

9.增强多模态

增强多模态指LLM模型同时考虑处理文本、图像、音频等。

导致的问题

  1. 现有模型主要处理文本,少数可以同时处理图像(GPT-4)。因此,缺乏了音频数据的处理,例如,一个大模型无法判断一首歌好不好听。

改进的具体方向:

  1. 针对不同的多模态训练不同的模型再进行整合。

10.与现有软件工具结合

微信、淘宝、美团、QQ音乐、12306等。

11.与现有硬件工具结合

机器人手臂,仿生人皮肤,红外线,NFC。

12.自我认知和世界认知

没有自我认知何谈置信校准。没有世界认知如何消除偏见。

导致的问题

  1. 目前LLM与AGI最大的差距其实是仍然是自我认知和世界认知。

改进的具体方向:

13.AGI的测试问题

目前多见于利用考试的方式,例如律师职业资格考试、GRE等。

14.AGI的安全问题和法律问题

暂时略过,读者可以看看《Planing for AGI and beyond》

从大型语言模型LLM走向人工通用智能AGI的改进方向(public)相关推荐

  1. 施路平教授:面向人工通用智能的类脑计算

    在2019年10月31日的北京智源大会"智能体系架构与芯片专题论坛"中,清华大学类脑计算研究中心主任施路平教授为我们分享了题为<面向人工通用智能的类脑计算>的主题演讲. ...

  2. 率清华团队研发“天机芯”登《Nature》封面,他说类脑计算是发展人工通用智能的基石...

    整理 | AI科技大本营(ID:rgznai100) 8 月,清华大学教授.类脑计算研究中心主任施路平率队研发的关于"天机芯"的论文登上<Nature>封面,这实现了中 ...

  3. 清华大学施路平:双脑驱动的人工通用智能

    来源:AI科技评论 本文约3300字,建议阅读7分钟 本文重点讨论了如何将脑科学和计算机融合推动人工通用智能的研究. 11月1日上午,在第十九届中国计算语言学大会(CCL2020)上,清华大学类脑计算 ...

  4. 清华大学施路平:发展人工通用智能最好的时机到了!

    来源:学术头条  今年8月,一辆来自清华的无人驾驶自行车登上了Nature的封面.这是中国的人工智能芯片首次登上Nature,在全球引发热议. 这辆自行车不仅可以平衡自身,还可以绕过障碍物,甚至可以响 ...

  5. 迈向人工通用智能与混合天玑芯片架构

    介绍 芯片包含156个Fcores,包含大约40000个神经元和一千万个突触,采用28nm的加工技术制作 天玑占用面积是3.8∗3.8mm23.8*3.8mm^23.8∗3.8mm2 Dendrite ...

  6. 对话式文档审阅:积极拥抱大型语言模型,实在智能Chat-IDP开启内测

    以ChatGPT为代表的自然语言处理大模型技术大火出圈,微软.谷歌.百度系等生成式大模型接连发布和不断升级优化,人工智能的快速发展,进一步促使AI产业带动生产力变革,正式拉开一个AI时代的全新序幕. ...

  7. 交通变革中的ChatGPT:当智能交通遇见大型语言模型

    ✦ 最近爆火的ChatGPT 是由 OpenAI 开发的一种大型语言模型 (LLM) ,拥有超过1750亿个参数,特别是在自然语言处理(NLP)方面有着令人印象深刻的能力.ChatGPT的出现引爆各行 ...

  8. 【人工智能】LLM 大型语言模型和 Transformer 架构简介

    目录 大型语言模型 (LLM) 一.LLM的起源 二.LLM的发展阶段 三.LLM的应用领域

  9. 深度 | 人工智能全局概览:通用智能的当前困境和未来可能

    我们的未来将不可避免地与人工智能捆绑在一起,于是我们就必须要问:人工智能的现状是怎样的?我们将走向何方?(可点击阅读原文下载原版 PDF) 目录 如今人工智能的能力和局限 迈向通用人工智能 训练还是不 ...

最新文章

  1. 一位互联网老兵分享,社会化运营案例解析(宜信内部干货)
  2. yolo-v2 v3实现笔记 mAP:mean average precision 平均精度均值
  3. java 拼音模糊查询_java实现首字母模糊查询的功能
  4. 配置文件configSections节点使用实例      。
  5. python to_excel新增sheet_Python使用xlrd和xlwt读写Excel的简单用法
  6. sqlmap指定cookie_利用SQLMap进行cookie注入
  7. 1015. 德才论 (25)-PAT乙级真题
  8. Matlab图形修饰之色彩处理
  9. CSS快速入门-基本选择器
  10. MySQL笔试题附加自己写的答案
  11. 书店计算机管理制度范文,书店管理制度
  12. Notepad++的SQL格式化插件
  13. 斐讯 K3刷梅林改固件ac-3100 成功配置定时任务
  14. 测井曲线wis文件格式转换为ASCII文本格式小软件的开发(C与Python结合开发)
  15. 数字日期格式转换yyyymmdd_如何把日期改为yyyymmdd
  16. MySQL查询某一天数据
  17. DRAM内存原理(四)同步内存和异步内存技术
  18. [设计模式]行为模式-模板方法(C++描述)
  19. Ant入门教程之常用命令
  20. FITC-Dextran,Dextran-FITC,右旋糖酐荧光素,一种被标记的多糖

热门文章

  1. Mybatis | Mybatis 一级缓存、二级缓存、三级自定义缓存(Redis)
  2. tp6 think-swoole4.0 websocket 使用的坑
  3. 微信开放平台开发第三方授权登陆
  4. 写一个点击图片进入浏览图片界面的第三方库思路
  5. dhclient用法
  6. 找到所有的农场(for循环模拟)
  7. fulltext mysql_mysql深入理解全文索引fulltext及实例剖析
  8. 怎么解决安装windows系统无法创建新的分区的问题
  9. NumberUtils.isNumber()方法验证字符串是否为数字失败
  10. 红外数据的基本原理和处理机制