编译 | 禾木木

出品 | AI科技大本营(ID:rgznai100)

近年来对于 AI 语言模型的有一个争议就是 —— 越大越好。

DeepMind 正在质疑这个理由,并表示给 AI 一个记忆可以帮助与它 25倍大小的模型竞争。

去年 6 月,OpenAI 发布 GPT-3 模型时,就重写了语言 AI 的规则手册。该实验室的研究人员标明,简单地扩大神经网络的规模和训练数据可以显著提高各种语言任务的性能。

RETRO 模型

自 GPT-3 发布以后,许多其他科技公司也加入了这一潮流,开发了自己的大型语言模型并实现了类似的性能提升。但研究人员还是对这种方法提出了担忧,尤其是前谷歌研究员 Timnit Gebru。

在一份公司的文件中,Gebru 和他的同事强调说,这些模型及其数据集的庞大规模使他们比普通的神经网络更加难以理解,而这些神经网络以「黑匣子」而闻名。这可能会使检测和减轻这些模型中的偏差变得更加困难。

他们发现了一个更大的问题,依靠越来越多的计算能力在 AI 领域取得进展意味着该领域的尖端技术对于除了资源丰富的商业实验室外的所有人来说都是遥不可及的。扩大模型就可以带来持续的进步,也意味着有前景的替代方案的资源更少。

但在新的研究中,DeepMind 表明可能还有另一种方式。在一系列论文中,该团队解释了他们首先是如何构建自己的大型语言模型 Gopher,该模型比 GPT-3 大 60% 以上。然后,他们展示了一个更小的模型,该模型能够在数据库中查找信息,可以与Gopher和其他大型语言模型进行面对面的交流。

研究人员将这个较小的模型称为 RETRO,代表 Retrieval-Enhanced Transformer。Transformers 是大多数大型语言模型中使用的特定类型的神经网络;他们对大量数据进行训练,以预测如何回答人类用户的问题或提示。

RETRO 也依赖于变压器,但它被赋予了一个重要的增强。除了根据训练预测接下来应该出现什么文本外,该模型还可以搜索包含 2 万亿个文本块的数据库,以查找使用类似语言的段落,从而改进预测。

研究人员发现,只有 70 亿个参数的 RETRO 模型在各种语言任务上都可以胜过 AI21 Labs 制作的 1780 亿个参数的 Jurassic-1 转换器,甚至在大多数方面都优于 2800 亿个参数的 Gopher 模型。

除了减少所需的训练量外,研究人员还指出,能够查看模型在进行预测时参考了哪些文本块,可以更容易地解释它是如何得出结论的。对数据库的依赖也为更新模型知识提供了机会,无需重新训练,甚至无需修改语料库以消除偏差来源。

结语

有趣的是,研究人员表明,他们可以利用现有的变压器,通过重新训练其网络的一小部分,对其进行改造,使其能够与数据库一起工作。这些模型很容易超越原始模型,甚至接近从头开始训练的 RETRO 模型的性能。

不过,重要的是要记住,按照大多数标准,RETRO 仍然是一个大型模型。它几乎是 GPT-3 的前身 GPT-2 的五倍。人们似乎很可能希望看到更大的 RETRO 模型和更大的数据库有什么可能。

DeepMind 当然认为进一步扩展是一个很有前途的途径。在 Gopher 的论文中,他们发现虽然增加模型大小并没有显著提高逻辑推理和常识任务的性能,但在阅读理解和事实核查等方面的好处是显而易见的。

也许 RETRO 最重要的教训是,扩展模型并不是获得更好性能的唯一途径,甚至不是最快的途径。虽然规模确实很重要,但人工智能模型的创新也至关重要。

所以说,语言模型真的是越大越好吗?对此,你怎么看呢?

参考链接:

https://singularityhub.com/2021/12/20/biggers-not-always-better-deepminds-new-language-ai-is-small-but-mighty/

AI 语言模型真的是越大越好吗?这个模型优于 Gopher相关推荐

  1. 华为高级研究员谢凌曦:下一代AI将走向何方?盘古大模型探路之旅

    摘要:为了更深入理解千亿参数的盘古大模型,华为云社区采访到了华为云EI盘古团队高级研究员谢凌曦.谢博士以非常通俗的方式为我们娓娓道来了盘古大模型研发的"前世今生",以及它背后的艰难 ...

  2. ai人工智能对话了_对话人工智能模型

    ai人工智能对话了 How can chatbots become truly intelligent by combining five different models of conversati ...

  3. AI人工智能洗稿「OpenAI GPT-3模型」

    GPT-3模型达到千亿级参数:语言模型仍然可以是算术和编程,君子喻于义,小人喻于利.人类和ai相比有什么优势,与专用AI相比会高枕无忧,GPT-3更"通用":在这个过程中也许情同手 ...

  4. 笔记 | 百度飞浆AI达人创造营:深度学习模型训练和关键参数调优详解

    笔记 | 百度飞浆AI达人创造营:深度学习模型训练和关键参数调优详解 针对特定场景任务从模型选择.模型训练.超参优化.效果展示这四个方面进行模型开发. 一.模型选择 从任务类型出发,选择最合适的模型. ...

  5. 基于Web Speech API给AI语言模型加上语音功能,距离MOSS又近了一步

    目录 前言 起步 实现过程 webkitSpeechRecognition speechSynthesis 小例子 遇到的问题 效果展示 总结 前言 前段时间我把微信小号接入了AI语言模型,同事们直呼 ...

  6. 腾讯AI Lab开源世界首款自动化模型压缩框架PocketFlow:将深度学习装进口袋

    来源:腾讯AI 实验室 腾讯AI Lab机器学习中心今日宣布成功研发出世界上首款自动化深度学习模型压缩框架--PocketFlow,并即将在近期发布开源代码.这是一款面向移动端AI开发者的自动模型压缩 ...

  7. AI视觉组仙人一步之模型量化

    开心的程序猿@NXP 2021-01-28 Thursday 本文专为参加今年大学生智能车竞赛AI视觉组的同学们而写,也很适合其他对MCU上AI应用感兴趣的朋友. 神经网络模型最大的一个特点就是拥有宰 ...

  8. AI佳作解读系列(一)——深度学习模型训练痛点及解决方法

    AI佳作解读系列(一)--深度学习模型训练痛点及解决方法 参考文章: (1)AI佳作解读系列(一)--深度学习模型训练痛点及解决方法 (2)https://www.cnblogs.com/carson ...

  9. [asp.net mvc 奇淫巧技] 04 - 你真的会用Action的模型绑定吗?

    在QQ群或者一些程序的交流平台,经常会有人问:我怎么传一个数组在Action中接收.我传的数组为什么Action的model中接收不到.或者我在ajax的data中设置了一些数组,为什么后台还是接收不 ...

最新文章

  1. 什么是Java实例初始化块
  2. 如何提高PyTorch“炼丹”速度?这位小哥总结了17种方法,可直接上手更改的那种...
  3. “DNS隧道”盗号木马分析——类似hjack偷密码然后利用dns tunnel直传数据发送出去...
  4. Java 集合系列10: HashMap深入解析(2)
  5. 调用函数,计算分段函数的值
  6. Android L(5.0)源码之图形与图像处理之动画——Frame、Tween、属性动画、SurfaceView...
  7. c语言结构体编程,[编程] C语言的结构体详解
  8. 安装python3 及virtual与virtualenvwrapper
  9. 服务化改造实践(三) | Dubbo + Zipkin
  10. 20155303 2016-2017-2 《Java程序设计》第一周学习总结
  11. php会不会被人工智能取代,人工智能真的会取代前端开发吗?
  12. mysql考试会自动给我们放好路径吗_Jsp struts mysql实现的在线考试系统项目源码附带视频运行教程...
  13. 红米Pro 2016020 2016021通刷官方线刷包_救砖包_解账户锁
  14. [L4D]目录Missions中任务与地图关系
  15. 论文笔记:OverFeat
  16. 使用pdfbox-2.0.1.jar将pdf转换成图片,并且可自定义图片大小
  17. 一个快速搭建微商城的方法
  18. Mysql 新建用户并且授权用户的访问数据库权限以及可以对数据的操作类型
  19. linux ftdi 虚拟,linux ftdi 驱动
  20. 用迭代法求 x=根号a。求平方根的迭代公式为:X(n+1)=(Xn+a/Xn) /2。

热门文章

  1. android studio 库项目管理,在Android Studio中将现有项目转换为库项目
  2. 汽车加油c语言作业,算法作业—汽车加油问题
  3. Python抓取新浪新闻数据(三)
  4. JavaEE 银联支付之手机控件支付-消费类交易
  5. 微信开放平台手机APP支付
  6. FairyGUI和NGUI对比
  7. 深入理解javascript函数系列第二篇——函数参数
  8. Java并发编程-信号量
  9. BufferedWriter
  10. 图像HSV和RGB的相互转换