视学算法报道

编辑:陈萍

它被命名为 WebGPT,OpenAI 认为浏览网页的方式提高了 AI 解答问题的准确性。

如果 AI 学会上网,那么它就拥有了无限获取知识的方式,之后会发生什么就不太好预测了。于是著名 AI 研究机构 OpenAI 教那个开启了通用人工智能大门、体量巨大的人工智能模型 GPT-3 学会了上网。

2020 年 5 月,OpenAI 上线具有 1750 亿参数的 GPT-3,这个大模型可谓功能强大,它使用的最大数据集在处理前容量达到了 45TB,不仅可以更好地答题、翻译、写文章,还带有一些数学计算的能力。这样强大的深度学习模型,不禁让人产生一种错觉:真正的 AI 要来了吗?

在 GPT-3 之后,语言大模型成为了各家科技公司研究的重要趋势,有把大模型和知识图谱结合的,也有在「大」这个方向上一头走到黑的。今年 12 月,谷歌 GLaM 已经把参数量推高到了 1.2 万亿。

像 GPT-3 这样的语言模型对许多不同的任务都很有用,但在执行现实世界知识任务时往往会产生「幻觉」信息。它们往往有一个缺点——缺乏常识。比如在被问及「我的脚有几个眼睛」时,它会回答「两个」。这一缺陷被业内称为「GPT-3 的阿喀琉斯之踵」。在具体的应用中,它会导致模型在一些涉及逻辑推理和认知的任务上表现较差。

为了解决这个问题,OpenAI 教会了 GPT-3 使用基于文本的 web 浏览器。

现在,这个模型能正确地处理一些棘手的问题:比如,有人询问了一个错误的问题:「莎士比亚什么时候写的《哈利 · 波特》系列小说?」

该模型回答:莎士比亚没有写《哈利 · 波特》小说。这些小说是由 J.K. 罗琳完成的……

现在看来,这个会上网的 WebGPT,不会再直接回答「我的脚有几个眼睛」这样错误明显的问题,而是帮你纠正。

从回答的内容来看,这个模型完全正确,此外,该模型还给读者提供了引用文献,如蓝体数字所示,答案的最后还给出了相关链接,点击每个链接,还能链接到相应的网页。

又比如,有人问:海马体中有相互连接吗?模型的回答感觉比专业人士还要专业。同样的,模型还给出了参考链接。

对于一些更专业的问题,WebGPT 也不在话下,比如,什么是机器学习中的稀疏 transformer?对于这个问题,可能刚入行 AI 的研究者都回答不了,但是该模型能给出准确的答案,还带公式的那种。

下面是模型搜索过程:

上述功能是如何实现的呢?具体来说,OpenAI 对 GPT-3 进行了微调,以使用基于文本的网络浏览器更准确地回答开放式问题,这允许模型搜索和浏览网页。该模型原型复制了人类在线研究问题答案的方式,涉及提交搜索查询,跟踪链接,以及向上和向下滚动网页。模型经过训练后,它会引用信息源,这使得模型提供反馈更容易,从而提高事实的准确性。

此外,该模型还提供了一个开放式问题和浏览器状态摘要,并且必须具有诸如「Search……」、「Find in page:……」或「Quote:……」之类的命令。通过这种方式,模型从网页中收集段落,然后使用这些段落来撰写答案。

通过设置任务,OpenAI 能够使用模仿学习(imitation learning)在不同任务上训练模型,然后根据人类反馈优化答案质量。OpenAI 在 ELI5 上对模型进行了训练和评估,其中 ELI5 是一个由 Reddit 用户提问的问题集。

论文地址:https://cdn.openai.com/WebGPT.pdf

模型训练

如此智能的模型是怎么实现的呢?

总体而言,OpenAI 对 GPT-3 模型家族的模型进行了微调,重点研究了具有 760M、13B 和 175B 参数的模型。从这些模型出发,OpenAI 使用了四种主要的训练方法:

  • 行为克隆(Behavior cloning,BC):OpenAI 使用监督学习对演示进行了微调,并将人类演示者发出的命令作为标签;

  • 建模奖励(Reward modeling,RM):从去掉 unembedding 层的 BC 模型开始,OpenAI 训练的模型可以接受带有引用的问题和答案,并输出标量奖励,奖励模型使用交叉熵损失进行训练;

  • 强化学习(RL):OpenAI 使用 Schulman 等人提出的 PPO 微调 BC 模型。对于环境奖励,OpenAI 在 episode 结束时获取奖励模型分数,并将其添加到每个 token 的 BC 模型的 KL 惩罚中,以减轻奖励模型的过度优化;

  • 剔除抽样(best-of-n):OpenAI 从 BC 模型或 RL 模型(如果未指定,则使用 BC 模型)中抽取固定数量的答案(4、16 或 64),并选择奖励模型排名最高的答案。

对于 BC、RM 和 RL,OpenAI 使用了相互不相交的问题集。总结来说,BC 中,OpenAI 保留了大约 4% 的演示作为验证集。RM 中,OpenAI 使用了不同大小模型(主要是 175B 模型)对比较数据集答案进行采样,使用不同方法和超参数的组合进行训练,并将它们组合成单个数据集。最终奖励模型经过大约 16,000 次比较的训练,其余 5,500 次用于评估。而 RL 中采用混合的方式,其中 90% 问题来自 ELI5,10% 问题来自 TriviaQA。

结果

ELI5 结果

模型经过训练可以回答来自 ELI5 的问题,OpenAI 训练了三种不同的模型(760M、13B 和 175B),对应于三种不同的推理时间计算预算。OpenAI 表现最好的模型(175B best-of-64)产生的答案在 56% 的时间里比人类演示者写的答案更受欢迎。尽管这些是用于训练模型的同一种演示,但我们能够通过使用人工反馈来改进模型的答案以进行优化。

在 ELI5 测试集上,将 OpenAI 的模型与人类演示者进行比较。 

TruthfulQA 结果

对于从训练分布(training distribution)中提出的问题,OpenAI 最好的模型的答案平均与我们的人类演示者写的答案一样准确。然而,对于 out-of-distribution 问题,鲁棒性是一个挑战。为了探讨这个问题,OpenAI 在 TruthfulQA 数据集上进行了评估。OpenAI 的模型在 TruthfulQA 上优于 GPT-3,并表现出更有利的扩展特性。然而,OpenAI 的模型落后于人类的表现,部分原因是它们引用了不可靠的来源。该研究希望使用对抗训练等技术来减少这些问题。

TruthfulQA 结果。

评估实时准确性

为了提供正确的反馈以提高事实准确性,人类必须能够评估模型产生的回答。这可能是个极具挑战性的任务,因为回复可能是技术性的、主观的或含糊不清的。出于这个原因,开发者要求模型引用其回答的来源。

经过测试,OpenAI 认为 WebGPT 还是无法识别很多细微差别,人们预计随着人工智能系统的改进,这类决策将变得更加重要,需要跨学科研究来制定既实用又符合认知的标准。或许辩论的方式可以缓解这些问题。

部署和训练的风险

因为生成错误陈述的几率更低,WebGPT 显然比 GPT-3 更加优秀,但它仍然存在风险。带有原文引用的答案通常被认为具有权威性,这可能会掩盖 OpenAI 新模型仍然存在基本错误的事实。该模型还倾向于强化用户的现有信念,研究人员们正在探讨如何最好地解决这些问题。

除了出错和误导之外,通过让 AI 模型访问网络的方法训练,为该研究引入了新的风险。对此 OpenAI 表示人工智能的浏览环境还不是完全的网络访问,是通过模型将查询请求发送到 Microsoft Bing Web Search API 并关联网络上已有链接实现的,这可能会产生副作用。

OpenAI 表示,根据对 GPT-3 的已有经验,该模型似乎不足以危险地利用这些与外界互联的方式。然而,风险会随着模型能力的增加而增加,研究人员正在努力建立针对它们的内部保护措施。

OpenAI 认为,人类的反馈和 Web 浏览器等工具为实现稳定可信,真正通用的 AI 系统找到了一条有希望的途径。尽管目前的语言大模型还面临很多未知和挑战,但人们在这个方向上仍然取得了重大进展。

参考链接:

https://openai.com/blog/improving-factual-accuracy/

© THE END

转载请联系机器之心公众号获得授权

投稿或寻求报道:content@jiqizhixin.com

点个在看 paper不断!

OpenAI教GPT-3学会上网,「全知全能」的AI模型上线了相关推荐

  1. 一个「菜鸟」转行AI的成长心得!

    ↑↑↑关注后"星标"Datawhale 每日干货 & 每月组队学习,不错过 Datawhale干货 作者:太子长琴,算法工程师 本文是一个转行四年的「菜鸟」的成长心得,围绕 ...

  2. MIT人工智能实验室推出「液态」神经网络 | AI日报

    带臂机器狗来了,捡垃圾.跳大绳.种花.写字,波士顿动力Spot迎来重大升级 今天,波士顿动力发布了Spot机器人全新视频,除了添加了一条机械臂,它还能实现捡垃圾.跳绳.种花等多种功能. Spot机器狗 ...

  3. 苹果自动驾驶部门「裁员」又「重组」,AI负责人接掌「泰坦」

    点击上方,选择星标或置顶,不定期资源大放送! 阅读大概需要5分钟 Follow小博主,每天更新前沿干货 来源:外媒 编辑:LQ 转自:新智元 [导读]据外媒报道,12月9日,苹果公司将其自动驾驶汽车部 ...

  4. 谷歌公布云游戏平台「Stadia」 预计2019年上线

    在今天举行的 GDC 演讲上,谷歌正式公布了此前预告已久的全新云游戏平台「Stadia」.谷歌称这是一个不受硬件限制,能够将全世界所有玩家真正聚在一起的,随时随地游玩任何游戏的新服务. 「Stadia ...

  5. 这有5种来自大自然「馈赠」的AI技术及其应用,你知道多少?

    原文来源:Towards Data Science 作者:Luke James 「雷克世界」编译:KABUDA 对于技术领域中存在的AI相关技术,我们应心存感恩.人类不仅花费了数十年的时间来研究完善数 ...

  6. caffe模型文件解析_「机器学习」截取caffe模型中的某层

    通常情况下,训练好的caffe模型包含两个文件: prototxt:网络结构描述文件,存储了整个网络的图结构: caffemodel:权重文件,存储了模型权重的相关参数和具体信息 对于某些大型的网络, ...

  7. 波士顿动力机器狗学会「撒尿」!拉风狗还不上街遛一遛?

    2021-04-14 15:57:20 来源:verge 编辑:yaxin [导读]波士顿动力机器狗又get一项新技能.近日,一位油管博主Michael Reeves利用自己的技术专长,把机器狗Spo ...

  8. AI「干掉」程序员后,又对艺术家下手了

    几十年前,柯达说出了那句经典的广告语,「你负责按快门,剩下的交给我们」.在未来,AI 兴许也会打起类似的广告,「你什么都不用干,剩下的交给我们」. 人工智能领域缺钱,但这两个月来,他们不缺「好消息」. ...

  9. 深度学习在人脸识别中的应用 —— 优图祖母模型的「进化」

    原作者: 腾讯优图 | 来自: 机器之心 序言--「弱弱」的人工智能 说到人工智能(Artificial Intelligence, AI)人们总是很容易和全知.全能这样的词联系起来.大量关于人工智能 ...

最新文章

  1. AI根据视频画面自动配音 ,真假难辨 !(附数据集)
  2. 中国环保塑料薄膜行业营销策略分析及投资规划建议报告2021-2027年版
  3. Python爬虫-HTMLSession的使用
  4. java queue源码_Java高并发系列之ArrayBlockingQueue源码解析
  5. 心率 心律 脉率的区别
  6. RabbitMQ基础进阶教程
  7. windows phone (24) Canvas元素A
  8. pi/4QPSK调制解调原理
  9. 嗯,手搓一个TinyPng压缩图片的WebpackPlugin也SoEasy啦
  10. 10倍性能提升!英伟达新卡皇降临,图灵架构GTX 20系列发布
  11. linux 中的 usr 是什么含义
  12. oracle数据库自动修复,【案例】Oracle数据库由于存在坏块导致无法启动的恢复过程...
  13. 计算机大赛鼓励语录,鼓励参加比赛的话
  14. java.lang.NoClassDefFoundError: Failed resolution of: Landroid/view/View$OnUnhandledKeyEventListener
  15. 《51CTO博客2.0——活跃之星评选大赛》送的获奖书籍及个人感言
  16. oracle drop tablespace 恢复杀手锏
  17. 拼团返利模式玩法VS最新拼团的商业模式
  18. 中职教资计算机网络面试,2018下半年教师资格证面试:中学信息技术教案《计算机网络的组成》...
  19. 解决最新的Chrome 7 不再支持CRX手动安装方法
  20. Matlab进行gnss用户坐标计算,论文推荐 | 嵇昆浦,沈云中:含缺值GNSS基准站坐标序列的非插值小波分析与信号提取...

热门文章

  1. Android 控件 之 Menu 菜单
  2. Android, BaseAdapter 处理大数据量时的优化
  3. 图像边缘检测--OpenCV之cvCanny函数
  4. hdu - 4707 - Pet
  5. Tomcat手动配置简述【查询留存】
  6. wordpress调用树形目录
  7. Office Live for Small Business--开启您创业的大门
  8. LeetCode实战:数组中的第K个最大元素
  9. 15级团队学习成果汇报 -- 利用C#语言实现展览厅
  10. 5个实用的例子,一行 Python 能干嘛?