来源:AI前线

作者:Ben Dickson

译者:王强

策划:冬梅

本文属于我们的人工智能研究论文评论系列,这个系列旨在探讨人工智能领域的最新研究成果。

DeepMind 是最新的人工智能研究实验室。它推出了一个可以生成软件源代码的深度学习模型,成果令人印象深刻。该模型被称为 AlphaCode,基于 Transformer,与 OpenAI 在其代码生成模型中使用的架构是一样的。

编程是深度学习和大型语言模型颇有前途的应用之一。对编程人才日益增长的需求刺激业界发起了一场发展创作工具的竞赛,这些工具可以提升开发人员的生产力,并给非开发人员提供创造软件的工具。

而在这方面,AlphaCode 肯定给人留下了深刻印象。它已经成功解决了很多复杂的编程挑战,这些难题往往需要数小时的计划、编程和测试。有一天它可能会成为一个很好的工具,可以用来把问题描述变成实用的代码。

但它肯定没法和任何级别的人类程序员相提并论。这是一种完全不同的软件创建方法,其中没有人类的思维和直觉参与,所以是不完整的。

编程竞赛

编程挑战描述的例子(来源:DeepMind)

AlphaCode 不是业内在这一领域唯一的成果,但它完成了一项非常复杂的任务。其他类似的系统专注于生成简短的代码片段,如一个函数或一个代码块,旨在执行一个小任务(例如建立一个 web 服务器或从 API 系统中提取信息)。虽然这些任务令人印象深刻,但当语言模型被暴露在足够大的源代码语料库中时,这些任务就变得微不足道了。

相比之下,AlphaCode 的目的是解决竞争性的编程问题。编程挑战的参与者必须阅读挑战描述,理解问题,将其转化为算法解决方案,用通用语言实现它,并针对一组有限的测试案例进行评估。最后,他们的结果是根据不在实现过程中的隐藏测试的性能来评估的。编程挑战还可以有其他条件,如时间和内存限制。

总体而言,参加编程挑战的机器学习模型必须生成整个程序,解决一个与它之前所见所有事物都不一样的问题。这比根据以前看到的例子合成一个源代码摘录要困难得多。

编程挑战解决方案的例子(来源:DeepMind)

Transformer 和大型语言模型的力量

AlphaCode 是大型语言模型在解决复杂问题方面取得进展的又一个例子。这种深度学习系统一般被称为序列到序列模型(seq2seq)。Seq2seq 算法将一串数值(字母、像素、数字等)作为输入,并生成另一串数值。这是许多自然语言任务(如机器翻译、文本生成和语音识别)中使用的方法。

根据 DeepMind 的论文,AlphaCode 使用了一个编码器 - 解码器 Transformer 架构。近年来,Transformer 变得特别流行,因为它们可以处理很大的数据序列,而对内存和计算的要求比它们的前辈,循环神经网络(RNN)和长短时记忆网络(LSTM)要少得多。

Transformer 网络结构

AlphaCode 的编码器部分为目标问题的自然语言描述创建一个数字表示。解码器部分接收由编码器生成的嵌入向量,并试图生成解决方案的源代码。

事实证明,Transformer 模型很擅长此类任务,特别是当它们被提供足够的训练数据和计算能力时更是如此。但比起把原始数据扔给超大型神经网络这样的暴力手段,在我看来,AlphaCode 的真正亮点更多归功于 DeepMind 的科学家在设计训练过程和生成及过滤其结果的算法方面展现出来的聪明才智。

无监督和有监督学习

为了创建 AlphaCode,DeepMind 的科学家使用了无监督预训练和有监督微调的组合。这通常被称为自监督学习,这种方法在没有足够的标记数据或数据注释昂贵且耗时的应用中变得很受欢迎。

在预训练阶段,AlphaCode 在从 GitHub 提取的 715 千兆字节的数据上进行无监督学习。该模型的训练过程是尝试预测语言或代码片段的缺失部分。这种方法的优点是,它不需要任何形式的注释;通过接触越来越多的样本,ML 模型逐渐变得更善于为文本和源代码的结构创建数字表示。

训练和应用 AlphaCode 的算法(来源:DeepMind)

之后预训练的模型在 CodeContests 上做微调,CodeContests 是由 DeepMind 团队创建的一个有注释的数据集。该数据集包含问题陈述、正确和错误的提交,以及从各种来源收集的测试案例——包括 Codeforces、Description2Code 和 IBM 的 CodeNet。该模型经过训练,可以将挑战的文本描述转化为源代码结果。它的结果用测试案例进行评估,并与正确提交的案例进行对比。

在创建数据集时,研究人员特别注意避免训练、验证和测试集之间的历史性重叠。这确保了 ML 模型在面临编程挑战时不会生成记忆性的结果。

代码生成和过滤

一旦 AlphaCode 训练完成,它就会针对以前没有见过的问题进行测试。当 AlphaCode 处理一个新问题时,它会产生许多解决方案。然后,它使用一个过滤算法来选择最好的 10 个候选方案,并将它们提交到竞赛中。如果其中至少有一个是正确的,那么这个问题就被认为已经解决了。

根据 DeepMind 的 论文,AlphaCode 可以为每个问题生成数百万个样本,且它通常会生成成千上万的解决方案。然后 AlphaCode 对这些样本进行过滤,只留下那些通过了问题陈述中包含的测试的样本。根据论文,这一过程将删除大约 99% 的生成样本。但这样仍然会留下成千上万的有效样本。

为了优化样本选择过程,研究团队使用了一种聚类算法来将解决方案分为多个组。根据研究人员的说法,聚类过程倾向于将有效的解决方案组合在一起。这样就更容易找到一小部分有可能通过竞赛隐藏测试的候选者。

据 DeepMind 称,当在流行的 Codeforces 平台上的实际编程比赛中进行测试时,AlphaCode 在参赛者中平均排名是前 54%,考虑到编程挑战的难度,这样的结果非常令人印象深刻。

AlphaCode 的问题解析和代码生成过程的可视化(来源:DeepMind)

人工智能 vs 人类

DeepMind 的博客正确地指出,AlphaCode 是人工智能代码生成系统第一次“在编程比赛中达到了具有竞争力的水平”。

然而,一些出版物将这一说法误认为 AI 编程“与人类程序员一样出色”,这就是将狭义的人工智能与人类的一般问题解决能力对比的谬误。

例如,一般来说,你可以预期一位擅长国际象棋和围棋的选手在其他许多方面也很聪明。事实上,在学习和掌握国际象棋之前,你必须先获得其他许多认知技能。然而,过去几十年的经验已经证明,人工智能系统可以在不获得所有这些技能的情况下,通过捷径解决非常困难的问题。

两个最好的例子是 DeepBlue 和 AlphaGo,这两个人工智能系统在国际象棋和围棋方面击败了人类世界冠军。虽然这两个系统都是计算机科学和人工智能领域了不起的成就,但它们只擅长一项任务。它们无法在其他任何需要仔细规划和制定战略的任务中与人类对手对抗,而这些技能是那些人类在成为国际象棋和围棋大师之前就已经掌握的。

竞争性编程也是一回事。一位在编程挑战中达到前列水平的人类程序员已经花了多年时间学习。他们可以抽象地思考问题、解决更简单的挑战、编写简单的程序,并表现出其他许多技能,而这些技能在编程比赛中被认为是理所当然的,并不会得到评估。

一言以蔽之,这些比赛是为人类设计的。你可以肯定,一般来说,在编程竞赛中排名较高的选手也是一名出色的程序员。这就是为什么许多公司使用这些挑战来做招聘决定。

相比之下,AlphaCode 是竞争性编程的一个捷径——尽管这是一条出色的捷径。它创造了新颖的代码。它不会从其训练数据中复制 - 粘贴。但它并不等同于一名普通的程序员。

人类程序员使用他们的直觉来引导他们有限的计算资源向正确的解决方案方向发展。他们使用调试、分析和审查过程来完善他们的代码。相比之下,AlphaCode 会生成成千上万的样本——有时多达 100,000 个——并对它们进行过滤,以找到有效的样本。

正如计算机科学教授 Ernest Davis 所观察到的,“这个过程很像是一大群猴子随机打字就能打出来哈姆雷特的故事。AlphaCode 已经成功地将猴子训练到了一个了不起的程度,但他们仍然需要大量猴子。然后它生成了 10 个候选结果,如果其中一个是正确的,它就认为自己成功了。”

他说的就是无限猴子定理,该定理指出,“一只猴子在打字机键盘上随机敲击按键无限长的时间,几乎肯定会打出任何给定的文字”,自然包括了莎士比亚的哈姆雷特。

这并不是对 AlphaCode 的攻击。事实上,AlphaCode 证明了凭借巧妙的设计、足够的计算能力和大量的数据,你就可以创建一个人工智能系统来搜索一个巨大的解决方案空间,而这个空间是不可能通过粗暴的计算来探索的(这也是 DeepMind 对 AlphaGo 所做的事情)。

然而,我们也必须承认这种方法的局限性。首先,正如 Davis 所指出的那样,随着解决方案变得越来越长,问题会变得极为困难。他写道:“AlphaCode 需要 100 万个样本才能在 20 行的程序上获得 34% 的正确率;要制作一个 200 行的程序——也就是计算机科学二年级的标准作业的长度——很可能需要 10^60 个样本”。

第二,AlphaCode 明确要求有良好的问题陈述和测试案例来评估和过滤它所生成的成千上万的样本。“现在,毫无疑问,提供输入和输出对于编程比赛中的人类参赛者是非常有用的,”Davis 写道。“尽管如此,就算不提供这些信息,人类程序员在大多数情况下依旧可以成功,只是要多做一点工作。相比之下,如果不提供具体的例子,AlphaCode 就会完全陷入困境;成功率会下降到不足百一。”

因此,与其让 AlphaCode 与人类程序员对决,我们更应该关注 AlphaCode 和其他类似的人工智能系统在与人类程序员联手时能做什么事情。这种工具可以对人类程序员的生产力产生巨大的影响。它们甚至可能给编程文化带来变化,使人类将重点转向制定问题(这门学科仍然是人类智能的领域)并让人工智能系统生成代码。

但人类程序员仍将处于控制地位。他们必须善用人工智能生成代码的力量和种种限制。

人们应该意识到 AlphaCode 的本来面目:一个代码生成器,可以为精心设计的问题陈述提出良好的候选解决方案。人们也应该承认它并不是:人类程序员的数字等价物。

原文链接:

https://bdtechtalks.com/2022/02/07/deepmind-alphacode-competitive-programming/

未来智能实验室的主要工作包括:建立AI智能系统智商评测体系,开展世界人工智能智商评测;开展互联网(城市)大脑研究计划,构建互联网(城市)大脑技术和企业图谱,为提升企业,行业与城市的智能水平服务。每日推荐范围未来科技发展趋势的学习型文章。目前线上平台已收藏上千篇精华前沿科技文章和报告。

  如果您对实验室的研究感兴趣,欢迎加入未来智能实验室线上平台。扫描以下二维码或点击本文左下角“阅读原文”

AlphaCode能替代人类程序员吗?网友:被替代也挺好,这样就可以少写代码多开会了...相关推荐

  1. 程序员转实施工程师_只有程序员才能看得懂?程序员:算了,不看了,我得写代码了...

    程序员:还是看完我在写代码吧 1.程序猿最烦两件事,第一件事是别人要他给自己的代码写文档,第二件呢?是别人的程序没有留下文档. 2.程序猿的读书历程:x语言入门->x语言应用实践->x语言 ...

  2. 程序员迎娶白富美的唯一出路是什么? 认真用心写代码

    /*2 如果认真工作了,就可以迎娶白富美.否则,打光棍, 半辈子.如果输入 认真用心工作, 就提示弹出 可以迎娶白富美.否则,提示弹出 打光棍.*/var demostr2 = prompt('请输入 ...

  3. 谷歌旗下DeepMind开发出编程机器人,已达人类程序员平均水平!

    近期,世界著名的编程竞赛网站Codeforces发布了一篇名为<AlphaCode ( DeepMind) Solves Programming Problems on CodeForce> ...

  4. ChatGPT会替代初级程序员吗?

    不会.ChatGPT 是一种人工智能技术,可以帮助人们快速生成文字内容,但它并不能替代初级程序员的工作.它不能独立完成复杂的编程任务,也不能自主解决程序错误.初级程序员在开发.测试和维护软件系统方面仍 ...

  5. 如何成为不可替代的程序员?掌握这个方法,裁员名单永远没有你

    互联网的快速迭代发展,使得这个行业人员流动性较大,即使是程序员这种高技术的核心人才,也会存在大浪淘沙下,被优胜劣汰的可能. 因此,作为一名程序员,应该具备哪些素质,才能避免被公司.被行业所淘汰,始终是 ...

  6. 上海00后985毕业女生月薪1.2w,想找年薪40万程序员,网友表示很不理解

    各位学生变成大学生的身份,进入大学阶段开始学习之后,大学生的学习节奏就不用像高中阶段那么紧绷了,大学生在大学里的忙碌程度如何? 和大学生所学习的是什么专业有关,同时还和大学生自身的自律意识怎么样,也是 ...

  7. 阿里发布免费的全新可变字体;Stability AI CEO:5年内,人类程序员将不复存在;Perl 5.38发布|极客头条

    「极客头条」-- 技术人员的新闻圈! CSDN 的读者朋友们早上好哇,「极客头条」来啦,快来看今天都有哪些值得我们技术人关注的重要新闻吧. 整理 | 梦依丹 出品 | CSDN(ID:CSDNnews ...

  8. 人工智能未来是否会取代人类程序员?

       这个话题在近期来引起了很大讨论,尤其是当GPT4发布后,其展现出来的能力让很多岗位的从业者战战兢兢,比如像程序员,甚至有大佬跳出说三年 AI一定会取代程序员.人工智能和机器人是否会大规模取代人类 ...

  9. 程序员离职代码交接_程序员离职大半个月,被老板命令回单位讲代码,员工:一次1万...

    正常情况下,如果我们已经被辞退大半个月了,那么与上一家公司也就没了任何关系,而根据<劳动合同法>的规定,离职人员应该按照双方的约定,办理工作交接,公司也应当依照法律的规定,在我们办理完工作 ...

最新文章

  1. 深入浅出Node.js(一):什么是Node.js(转贴)
  2. java 向下转型_Java_向下转型
  3. 终于完全弄懂了KMP(个人理解篇)
  4. java基础判断题_java基础知识周测试题带答案
  5. 安装vs2008出现的问题
  6. Python使用空域融合技术进行图像去噪
  7. Vue学习笔记之11-slot插槽
  8. 关于微信小程序的相关接口以及问题
  9. 【f1c200s/f1c100s】屏幕背光驱动适配
  10. 使用DAEMON Tools Ultra制作Ubuntu启动U盘全过程(含图文)
  11. w10连接远程计算机控制,win10系统教你如何远程控制他人电脑的方法
  12. 从最近一次的计算机攻击中,我们学到的经验教训
  13. Java线程池「异常处理」正确姿势:有病就得治
  14. 案例研究:中国金融科技50强之“安心de利”风控模式
  15. 脚手架(一)——脚手架开发入门
  16. 消息 ByteBuf 详解
  17. 国家级区块链基础设施BSN推出BSN-DDC以支持部署NFT
  18. 计算机学院学生划分哪些专业,计算机科学与工程学院2020年大类招生学生专业分流工作实施方案...
  19. 正则校验少数民族姓名
  20. 《完美软件》读书笔记11:信息摄取

热门文章

  1. 比尔盖茨是这样审查项目的 2
  2. http://forensics.idealtest.org CASIA图像篡改数据库
  3. Emojify - v2 吴恩达老师深度学习第五课第二周编程作业2
  4. 【南洋理工-CVPR2022】视觉语言模型的条件提示学习
  5. 独家 | 为什么大多数分析工作都以失败告终
  6. Python 3.10的几个好用的新特性
  7. 独家 | 层级聚类和Python实现的初学者指南(附链接)
  8. 常见机器学习算法背后的数学
  9. 微软推出Python入门课,登上GitHub趋势榜第一(附视频)
  10. 报名 | 挑战极限,参加2天清华数据Hackathon,赢得4万元奖金