卷友们好,我是rumor。

已经好久没看OpenAI的官网[1]了,但今天冥冥之中感觉受到了什么召唤,心想GPT4什么时候发布,莫名地就打开了,果然有料:

试用:https://chat.openai.com/

它把魔抓又伸向对话了!来一起看看官方放出的case吧:

帮人Debug代码,并进行多轮询问:

识别出危险问题并拒绝回答,但用户说明意图后给出了更好的回复:

执行指令,甚至改很多遍也不生气:

还有个指代消解的case太长就不放了,OpenAI在最后还拿InstructGPT做了对比,可以看到InstructGPT只是冰冷地执行指令,而ChatGPT则更有温度一些。

从上面的例子可以看到,对比今年其他厂的对话工作,ChatGPT有几项明显的优点:

  1. 基于GPT3.5,有着更多样的训练数据,别的我不知道,反正debug代码有点东西

  2. 强大的多轮上下文理解能力,从指代消解、写信的例子看出来的,如果对历史消息没有很好的记忆理解,可能就新起一个话题了

  3. 更像人。目前大部分模型都是直接回答,而ChatGPT显然跟用户有一个「Chat」的过程,比如debug代码的时候,上来先回复「很难说,再多给点信息」

更像人的对话策略,是很难做出来的,因为我们不知道怎么才算「像个人」。谷歌为了解决这个问题,曾经拆分出了一堆指标。

而这次OpenAI则是采用了和DeepMind Sparrow[2]一样的策略,既然不知道用哪些维度衡量对话的好坏,那直接基于用户的反馈去训练,让模型自己学就好了。

基于反馈的训练,那不就是宇宙的终点强化学习吗。

ChatGPT的制作分为如下几步:

  1. 用监督数据基于GPT3.5训练一个对话模型,训练数据是标注人员手把手写出来的

  2. 人工标注模型生成的多个结果,训练一个给对话回复打分的模型

  3. 用打分模型作为反馈,基于PPO算法训练一个对话模型

上面的步骤其实跟DeepMind的工作很像,也很直觉,但DeepMind额外针对黄赌毒对话做了些训练,目前还不知道ChatGPT是怎么实现的,不过以他们LM一把梭的性格,有可能全是数据堆出来的。。。

当然,ChatGPT还是有一些局限的,比如:

  1. 说一些不明所以毫无疑义的话

  2. 重复问相同的问题,或者轻微调整后答案变化很大

  3. 很啰嗦,从case里也看出来了,这主要是训练数据带来的偏差,标注同学会更倾向长句子

  4. 也不是所有模糊情况都会反问

  5. 有些黄赌毒问题还是没法识别,作者们在打算用API解决

目前,为了让大家给出更多的反馈,OpenAI顺势在11.30-12.30之间举行了一个反馈比赛[3],感兴趣的同学可以积极参与。

最后,让我们对应该过阵子就会发布的GPT4拭目以待吧!

参考资料

[1]

OpenAI Blog: https://openai.com/blog/

[2]

Building safer dialogue agents: https://www.deepmind.com/blog/building-safer-dialogue-agents

[3]

Feedback Contest: https://cdn.openai.com/chatgpt/ChatGPT_Feedback_Contest_Rules.pdf


我是朋克又极客的AI算法小姐姐rumor

北航本硕,NLP算法工程师,谷歌开发者专家

欢迎关注我,带你学习带你肝

一起在人工智能时代旋转跳跃眨巴眼

「不会debug代码的模型不是好AI」

OpenAI发布ChatGPT!手把手debug代码!相关推荐

  1. 《预训练周刊》第66期:智源2022大模型创新论坛、 ChatGPT手把手debug代码、AI与物理的交融...

    No.66 智源社区 预训练组 预 训 练 研究 观点 资源 活动 周刊订阅 告诉大家一个好消息,<预训练周刊>已经开启"订阅功能",以后我们会向您自动推送最新版的&l ...

  2. OpenAI发布ChatGPT:程序员瞬间不淡定了

    OpenAI发布ChatGPT:程序员瞬间不淡定了 12月1日,OpenAI发布了针对对话场景优化的语言大模型ChatGPT.ChatGPT是InstructGPT的兄弟模型,可以以对话的形式与用户交 ...

  3. OpenAI:ChatGPT 自动写代码功能测试

    OpenAI:ChatGPT 自动写代码功能测试

  4. OpenAI发布新作:ChatGPT聊天机器人

    近日,人工智能研究和部署公司OpenAI 发布一款新的人工智能聊天程序ChatGPT.一经发布,短短5天内,就吸引了数百万用户.在官方描述中,称其是一个"可以连续回答问题.承认自己的错误.挑 ...

  5. 复旦发布类ChatGPT模型Moss;OpenAI回应ChatGPT不向中国用户开放;Linux 6.2 发布|极客头条...

    「极客头条」-- 技术人员的新闻圈! CSDN 的读者朋友们早上好哇,「极客头条」来啦,快来看今天都有哪些值得我们技术人关注的重要新闻吧. 整理 | 梦依丹 出品 | CSDN(ID:CSDNnews ...

  6. OpenAI发布可扩展的元学习算法Reptile | 论文+代码+Demo

    安妮 编译自 OpenAI官方博客 量子位 出品 | 公众号 QbitAI 昨天,OpenAI发布了一种新型的可扩展元学习算法Reptile,还能在线试玩. 何为Reptile?难道是-- 咳咳严肃一 ...

  7. OpenAI发布最强的人工智能对话模型——ChatGPT,火出AI圈,给我们体验和思考

    目录 一.前言 二.ChatGPT的技术原理 阶段一:基于冷启动的有监督策略模型 阶段二:基于奖励机制的训练模型 阶段三:采用强化学习来增强预训练模型 三.使用案例 四.思考 问题一:ChatGPT如 ...

  8. 苹果汽车将不支持全自动驾驶;华为云发布研发需求管理工具;腾讯文档发布企业版;OpenAI上线ChatGPT | 每日大事件...

    ‍ ‍数据智能产业创新服务媒体 --聚焦数智 · 改变商业 01.苹果汽车被曝大降级:不支持完全自动驾驶 12 月 7 日消息,苹果公司已经缩减了其苹果汽车项目,该公司不再计划发布完全自动驾驶的汽车. ...

  9. 攻击者已利用ChatGPT编写恶意代码

     聚焦源代码安全,网罗国内外最新资讯! 编译:代码卫士 自OpenAI 在2022年11月发布ChatGPT以来,安全研究人员就预测称,网络犯罪分子开始利用这个AI聊天机器人编写恶意软件和执行其它恶意 ...

最新文章

  1. Windbg 教程-调试非托管程序的基本命令下
  2. AVAssetExportSession导出MP4视频失败
  3. vector中erase函数
  4. 根据长文本拆分至内表
  5. 怎么理解 IaaS、SaaS 和 PaaS 的区别?
  6. cpython cython_python – 优化Cython中的字符串
  7. BZOJ 1646: [Usaco2007 Open]Catch That Cow
  8. Win7安装英文语言包(图文)
  9. java和python爬虫那个好_java和python在爬虫方面的优势和劣势是什么?
  10. 电脑清灰过后,CPU温度下降,显卡温度却上升了
  11. Android ContentObserver使用实现GPRS快捷开关
  12. Warning: Attempt to present * on * which is already presenting *
  13. Facebook加密项目Libra浮出水面,Visa和万事达卡「入伙」
  14. 【深度学习BookNote】多层感知器(multi-layer perceptron)
  15. JAVA初级工程师面试36问(一)
  16. 『技术分享』-- 使用极光 IM 构建聊天功能
  17. 《计算机网络-谢希仁》读书笔记---概述
  18. Android项目开发实战常用知识点
  19. okhttp post请求
  20. JAVA 处理百万或者千万数据的方法

热门文章

  1. (三)stm32巡线小车首尝试 测速篇
  2. 2006-10-01 十一皖南单车行
  3. 轩辕Linux开放实验室
  4. 论文阅读:Automatic segmentation of pulmonary lobes using a progressive dense V-network
  5. ESafeKiller 亿赛通
  6. 【论文 CCF C】An Adaptive Box-Normalization Stock Index Trading Strategy Based on Reinforcement Learning
  7. AGV与电梯交互系统设计
  8. CentOS7克隆虚拟机需要修改的配置
  9. 第四章:项目整合管理 - (4.6 实施整体变更控制)
  10. 接口测试工具(下篇)——命令行工具curl