本文转载自IT之家

刚刚,OpenAI 又玩出了一个新高度。

只输入自然语句,AI 就自动做了个小游戏!

划重点:不! 用! 你! 编! 程!

来,感受一下这个 feel。

第一步,“小人儿”搞里头,输入一句话就能让它按照方向键左右移动:

Now make it controllable with the left and right arrow keys.

AI 在理解了需求之后,自动编程,然后小人儿就真的可以左右移动了。

第二步,“石头”搞里头,同样输入一句话,让它“从天而降”:

Now have it fall from the sky, and wrap around.

第三步,用自然语言简单再制定些规则,若小人儿被石头砸中则终止游戏。

Constantly check if the person and the boulder overlap at all, and if so, you lose.

最后还让 AI 生成结束提示,其中要包括一句鼓励人的话。

AI 挑中的是“Try Again!”

当然,还有规则更复杂的小游戏(例如增加计分等功能),也可以用同样的方式,分分钟生成:

这是魔法吧!现在开发小游戏都靠“打字”了?!

围观直播的观众们,也是发出了同样的感慨,瞧瞧这满屏止不住的弹幕:

有网友甚至直呼道:

编程,已经变成 AI 自己的游戏了。

这就是 OpenAI 重磅发布的新品 ——Codex,一个能自己编程的 AI。

AI 编程这事并不新鲜了,像 GitHub 前不久闹得风风火火的 Copilot,就是其中一个。

但它背后的技术,其实还是来自于 OpenAI。

然而这一次,OpenAI 给自己的能力升了个级,来了个新版本。

不仅如此,搞一个小游戏,仅仅是 Codex 能力的冰山一角罢了。

一起感受一下它更多惊艳的表现吧。

不用打字,直接语音命令它!

给 AI 打字“提需求”,还是略显麻烦了一些。

能不能直接说话下达命令呢?

这个还真可以有!

OpenAI 这次与微软合作出了一个 Word 插件,便带了这种语音控制的功能。

直接对着 AI 下命令“把每行开头的空格去掉”,AI 通过微软给的接口一顿操作,成功执行:

啪的一下,全文就左对齐了有木有。

而且 AI 还精准地理解了命令的含义,那些段与段之间的空行并没有改动。

来再复杂一点的。

给 AI 下达“每数到五行就加粗”命令,也是能轻松 hold 得住:

这种把任务吩咐下去,就有“人”给你完成的感觉,是不是很像老员工指挥实习生?

总之呢,是比罗永浩前几年发布的 TNT 系统语音办公要强上那么“亿”点点了。

除了官方的演示,这次内测用户 aniakubow,还让 AI 表演了通过 152 字描述生成一个网页。

可以看出这里 Codex 是用 Javascript 操作 Document 对象来生成网页,可能是训练集里没有直接的 HTML 代码的缘故吧。

最后,除了现场演示外,OpenAI 还在 Arxiv 上发布了 Codex 的论文预印版。

论文中,Codex 要面对的挑战甚至有刷 IOI 和 ACM 难度的竞赛题!

Codex 用对每道题生成 1000 种答案这种暴力方法,能做出 600 多道竞赛题测试集中的 3.23%,并且通过全部的测试用例。

这个编程题目测试集是 UC 伯克利研究人员在 5 月份刚刚做好的。

当时测试的 GPT-2、GPT-3 和开源的 GPT-Neo 可是在竞赛难度上全军覆没,一道都没做出来。

没想到短短两个多月,专为代码而生的 Codex 就为前辈们洗刷了耻辱。

Codex 的“魔法”,是如何实现的?

这么炫酷的能力,莫非还是像 GPT-3 一样堆数据,大力出奇迹吗?

不全是,这次 Codex 最大的一个版本是 120 亿参数,比起 GPT-3 的 1750 亿还是小了很多。

要了解具体情况,还要从它的开发历程说起。

最早,OpenAI 研究人员拿 GPT-3 做各种试验,发现 GPT-3 能从 Python 注释中生成一些简单的代码。

这可把他们高兴坏了,因为 GPT-3 根本没特意拿代码训练过,只是看过一些博客和帖子中零星的代码片段。

想想 GPT-3 在自然语言上的出色表现,要是专门训练一个代码版的 GPT-3,那肯定也能再次震惊业界。

于是,他们找到了 GitHub,这个拥有最多开源代码的“小伙伴”来合作。

一开始是拿到了 179G 的 Python 代码,但其中不乏存在一些篇幅太长的,以及明显是自动生成的那种。

在剔除掉这些“不达标”的代码后,最后留下的代码大小为 159G。

接下来当然是做预训练,把这些代码都喂给 AI (Codex)。

不过这里有一个问题:

GitHub 上的开源代码难免会有 Bug,AI 学了一堆有问题的代码可咋办?

其实这倒也好说,预训练之后不是还要微调嘛。

微调的时候,全用编程竞赛里的正确答案,以及 PyPI 里的靠谱开源代码就可以了。

最后,120 亿参数版的 Codex,能对 28.81% 的问题给出正确答案。

这个准确率超过之前的开源代码预训练模型 GPT-Neo 和 GPT-J,还有基于 GPT-2 的代码补全工具 TabNine。

这个成绩虽然不错,不过离能实际应用还是有点远了。

不过,这也难不住 OpenAI 的研究团队。

他们很快便想到了“突破口”:

人类编程的时候,不也经常先出一个版本,然后反复修改 bug 嘛~

那就让 AI 像人一样反复修改,改出 100 个版本来,从中总能挑出几个正确的来。

用上这种拿“量”堆出来的方法,Codex 的最终成绩是:

77.5%!

强,但不完全强

Codex 令人惊艳的表现,一度让网友们大呼:

要失业了要失业了!

有人直接在公屏上打出:再见了,计算机专业的学子们。

不过大家也不必如此担心,因为在演示过程中,其实就出现了翻车的情况。

在输入“Say Hello World with empathy”后,Codex 给出的结果居然还是“Hello World with empathy”。

这也侧面说明了 Codex 现在还不是完美的。

OpenAI 就表示:

即便是参数达到 120 亿的 Codex 12B,它的能力可能也还不如一位编程刚刚入门的学生。

虽然 Codex 学习上亿行代码,但它更大程度是“记住了”这些代码,并不是真正意义上的懂编程语言。

而且 Codex 对长字符串的理解也比较困难。

并且随着字符数量的增加,Codex 的性能表现下降得非常明显。

在这种情况下,Codex 就不能很好地理解用户的意图,结果可想而知,给出的代码可能就是完全错误的了。

此外,在理解变量和运算较多的注释时,Codex 也会犯错:

在这个例子中,120 亿参数版的 Codex,忘记了对变量 w 做减法,也没有返回所有数字的乘积。

这些对于还在学习编程的新手程序员而言,非常不友好。

而且由于生成的代码准确性和正确性都还不能保证,因此在安全问题上也存在一定风险。

不仅如此,OpenAI 还表示,Codex 会生成带有种族歧视的内容。

在社会层面上,OpenAI 还提出 Codex 的出现或许会冲击程序员的就业;如果被滥用,还有网络犯罪方面的隐患。

最后还有一点,就是环境方面的问题。

毕竟它作为大模型,参数量的规模不容小觑。

要不是合作方微软 Azure 云买了足够多的碳排放限度,Codex 可能还不能和我们见面呢(手动狗头)。

如果想要试玩的话,OpenAI 还准备了一个 Python 编程大赛,在这场比赛中 Codex 会作为你的搭档和你一同解题。

比赛将于北京时间 8 月 13 日凌晨一点开始,就是这时间对国内不太友好。

大赛报名地址:

https://openai.com/blog/openai-codex/

OpenAI 直播大秀语音指挥 AI 自动编程相关推荐

  1. 弹幕炸了!OpenAI直播大秀语音指挥AI自动编程,也就比老罗TNT强亿点点

    金磊 梦晨 明敏 发自 凹非寺 量子位 报道 | 公众号 QbitAI 刚刚,OpenAI又玩出了一个新高度. 只输入自然语句,AI就自动做了个小游戏! 划重点:不! 用! 你! 编! 程! 来,感受 ...

  2. 什么是vr直播?新上线APP 3分钟开启vr直播大秀

    随着VR的大火,VR应用到各个领域也是花样百出,其中VR直播的平台越来越繁多,使用方式也越来越复杂,在这些让人眼花缭乱的VR直播APP中,今天就为大家介绍一款XR协会推荐的免费VR直播APP软件. 只 ...

  3. Comate代码助手推出,现场生成了贪吃蛇游戏,我们距离AI自动编程还有多远?

    Comate代码助手推出,现场生成了贪吃蛇游戏,我们距离AI自动编程还有多远? 百度智能云推出"Comate"代码助手,并正式开放邀测,不算很意外. 毕竟让AI写代码,跑一跑贪吃蛇 ...

  4. 联想MWC大秀另一面AI实力,BAT为此转型以求

    雷刚 发自 凹非寺  量子位 报道 | 公众号 QbitAI 一年一度,世界移动通信大会依然在巴塞罗那开展. 今年全是AI,都讲5G. 毫无疑问,这两大交融交汇的科技浪潮,正在推动全球科技公司变革,也 ...

  5. 阿里大佬直播“大秀”在线告诉年薪百万的阿里P8顶尖人才,只因做到了这几点!

    最近部门招聘,很多工程师,包括我在内都参与了内推和面试的过程,经过这次招聘,我发现能够最终拿到offer的人,基本上在看到简历的那一瞬间就已经定下来了,后续的面试只不过是一种验证而已(注意,是验证,而 ...

  6. 惊呆!谷歌AI自动编程效率超研发工程师,作为AI工程师的我感到了森森的压力

    今天,TNW一则热门新闻炸开了锅:google AutoML 系统近日居然自己写了一串机器学习代码,其效率竟然超过了专业的研发工程师.这让我们人类的优越感何存?你们这些机器人学生啊,学习能力不要太强哦 ...

  7. Copilot 自动编程AI工具

    OpenAI与GitHub联合构建的AI自动编程工具Copilot,Copilot基于自然语言处理模型GPT-3搭建而成,Copilot预览版已经正式上线Visual Studio Code平台 Op ...

  8. AI自动播——AI虚拟主播帮你实现24小时直播带货技术分享

    如今很多淘宝天猫商家会在做直播的时候,会遇到真人主播难招或者真人主播直播时长有限,那么有什么办法解决这个难题呢,这个时候就可以用AI自动播了,也就是AI虚拟主播直播带货.具体怎么操作呢?下面一起来看看 ...

  9. 微软大秀AI肌肉:彰显的不仅是力量更是格局

    在人工智能领域,微软正在践行着自己的使命:予力全球每一人.每一组织,成就不凡. 1995年,微软公司创始人比尔·盖茨亲笔撰写的<未来之路>一书成为畅销书,并被评为"新中国成立50 ...

最新文章

  1. mysql 的 前导零_将前导零添加到MySQL列?
  2. python pypdf2另存为图片_最全总结!聊聊 Python 操作PDF的几种方法
  3. 2019年第十届蓝桥杯 - 省赛 - C/C++大学B组 - I. 后缀表达式
  4. @Value@PropertySource@ConfigurationProperties注解使用
  5. 程序员的一个好习惯,你有几个?
  6. 入门 IT 行业,该具备哪些技能?
  7. React 第九章 表单的使用
  8. STM8学习笔记---IAR工程中添加文件夹
  9. python ggplot_python数据可视化系列---谁是ggplot2的更好python实现
  10. python setup.py install 和python setup.py develop的区别
  11. 智慧工地视频监控系统解决方案
  12. n位整数去掉m位后求最大值问题
  13. TS2307: Cannot find module ‘vant‘ or its corresponding type declarations
  14. PPT | 5G时代的视频云服务关键技术与实践
  15. 巴比特 | 元宇宙每日必读:股价暴跌,强敌环伺,扎克伯格将如何续写元宇宙故事?...
  16. DSP之TMS320F28335学习总结与笔记(二)————ADC模块
  17. 为什么我加了过滤器然后就登不进去了_化隆空气过滤器滤芯哪里有
  18. 我的第二段实习经历之实习沉淀
  19. Propargyl-PEG1-SS-PEG1-PFP ester,1817735-30-0,炔基应用于生物标记
  20. 在基于ABP框架的前端项目VueElement项目中采用电子签章处理文件和打印处理

热门文章

  1. 企业电脑屏幕监控:为何需要及如何选择适合的工具
  2. Surging -Demo部署
  3. MATLAB调用dither()函数将莲花图片进行图像转化
  4. 952. 按公因数计算最大组件大小 : 枚举质因数 + 并查集运用题
  5. 【观察】英特尔® 至强® 创新与迭代背后,加速千行百业的智能化进程
  6. 断网安装是什么意思_ARP攻击是什么意思 受到ARP断网攻击的详细解决办法图解...
  7. Numbers创建堆叠柱状图
  8. 关于H5页面在微信浏览器中视频播放的问题
  9. oracle数据库offline,Oracle表空间Offline的三种参数详述
  10. signature=f6197a1fdaf88a0e285bc5c1ac267e98,디지털 방사선시스템에서 영상증강 파라미터의 영상특성 평가...