最近,GPT家族又添了一位新成员—GPT-f

提到GPT家族,首先想到了必然是今年大火的GPT-3,这款基于Transformer架构的语言模型,在文本生成方面的能力,已经可以达到以假乱真,欺骗人类的地步。

前不久,就有人利用GPT-3冒充专业人士在Reddit上回帖,还多次被顶上“高赞”,直到一周后才有网友发现,原来这些内容并非人类撰写。

与GPT-3类似,最新推出的这款GPT-f同样是基于Transformer语言模型,但不同的是,它目标是解决自动定理证明(ATP)的问题。

GPT家族的创始公司OpenAI认为,Transformer架构已经在自然语言处理、计算机视觉和语音识别等方面取得了长足的进步,相信它在相对未开发的推理任务领域中也具有足够的潜力。

而他们在GPT-f的最新研究论文中已经证明了这一点。

论文地址:https://arxiv.org/pdf/2009.03393.pdf

GPT-f:用语言模型解决数学问题

据了解,自动定理证明是人工智能研究领域中的一个非常重要的课题,其任务是对数学中提出的定理或猜想寻找一种证明或反证的方法。因此,自动证明系统不仅需要具有根据假设进行演绎的能力,而且也需要一定的判定技巧。

而Transformer语言模型恰好具备这样的能力,同时其生成能力还能解决现有研究的一个主要局限,即原始数学项(term)的生成。

GPT-f 可以看做是Transformer语言模型在数学推理领域的拓展,而它通过自动定理证明验证了语言模型在这一方面的可行性。

研究人员Greg Brockman在Twitter发文称,

GPT-f 已经发现32个形式定理证明,包括现有定理更简单的证明方式,以及尚未确定的证明。这些证明已经被收录到Metamath数据库中。

Github地址:

https://github.com/metamath/set.mm/pull/1547

https://github.com/metamath/set.mm/pull/1710

其中,Metamath数据库是目前最具全面,也最具权威性的形式数学社区。Metamath是一种微小的语言,它可以用抽象数学表达定理,并附有可以由计算机程序验证的证明。

此次GPT-f的自动定理证明被收录,是形式数学社区首次采纳深度学习系统提供的证明。

值得一提的是,该研究论文一作Stanislas Polu还表示,GPT在自动定理证明方面,达到了现有研究的最佳SOTA.

我们在实验中发现,GPT-f比现有自动定理证明器还要优秀,可完成测试集中56.22%的证明,而现有的SOTA模型MetaGen-IL也只能证明21.16%的定理。

除此之外,论文中显示,GPT-f在自动定理证明领域还取得了以下新的发现:

  • 生成式预训练可以显著提高模型性能,而相比于对网页上的通用文本进行预训练,对数学数据进行预训练会带来更好的性能。

  • 模型大小与性能表现呈正相关,即使所采用的Metamath数据集相对较小。

  • 研究发现,语言模型生成的语句上迭代地训练一个值函数可以提高证明程序的性能,由此提出了一个持续自我改进的策略:基于证明器生成的证明不断训练。

  • 利用Metamath环境测试,GPT-f模型证明了Transformer架构在形式推理方面的可行性。

接下来,我们来详细看一下GPT-f 的工作原理

基于自动证明器和证明助理的模型

论文中显示,研究人员使用了类似 GPT-2 和 GPT-3 的纯解码器Transformer,最大的模型有 36 层、7.74 亿个可训练参数。

基于该语言模型,GPT-f为 Metamath 形式化语言提供了自动证明器和证明助理(Proof Assistant)两个部分。

自动证明器的核心在于证明搜索过程。证明搜索包含维护一个证明树,它是从根目标开始探索每个目标的多种策略。而目标由累积对数概率(Logprob)的优先级进行扩展。

该研究采用 Metamath 作为形式环境。Metamath 的主库叫做 set.mm,包含基于 ZFC 集合论的约 38000 个证明。

需要注意的是,执行证明搜索需要与Metamath模型紧密耦合。在这里,研究人员用Python创建了一个Metamath内核,内核包含一个修改过的LR(0)解析器,用于检查模型生成的术语是否符合Metamath语法,以及实现Metamath替换,并以此来表示证明树的目标和策略对象。

总的来说,这个证明搜索过程和与它绑定的Metamath形式验证器共同构成了GPT-f自动验证器。

实验结果表明,尽管训练数据集的大小有限,但模型大小对GPT-f性能依然有正向影响。从下图来看,模型越大,训练和基准测试时使用的计算越多。

随着在样本数据上迭代次数的增加,模型性能也在不断增加,如下图,160m和700m(Webmath)参数模型在迭代学习值函数数据生成和重新训练过程中的性能表现:

另外,需要说明的是,研究人员向Metamath数学库提供了23个定理的简化证明,这些证明全部是由GPT-f自动验证器生成的。为了发现更简短的证明方式,研究人员从set.mm库中采样命题证明,并对比GPT-f模型找到的解与真值的长度,由此也验证了简短证明不依赖于额外定理。

在GPT-f中,在线证明助理可以辅助模型进行交互式证明构建。论文中,研究人员用它形式化了200多个定理和练习,结果发现模型的性能表现大幅提升。

证明助理可以自动生成大多数Metamath证明所需的各种简单技术验证步骤,它通过将现有定理调整到用户所需的搜索库,并建议使用定理。

即使推荐的定理存在错误,GPT-f模型通常也会选择正确的定理,而错误的定理通常很容易被人类修正。

证明助手也已经在Metamath社区中应用。研究人员表示,他们其目的是希望帮助社区提高效率的同时,通过自动收集用户反馈,反过来帮助他们提高模型的准确性。

语言模型解决逻辑问题,真的靠谱吗?

对于这项研究成果,Twitter上引起了不少网友和大佬们的关注讨论。其中也有部分人对GPT-f在数学定理方面的应用表示了质疑。

如一位网友表示,不要高估GPT-f,神经网络是很好的模式发现者,但它也只是一个模式发现者,而不是算法的发现者。

还有一位AI软件公司CEO,美国通用人工智能会议主席Ben Goertzel怎直接发文称,GPT-f 是一个在不理解的情况下指导定理证明的奇怪实验。

在他看来,与GPT的核心缺点一样,GPT-f在理解数学方面并不比GPT-2或GPT-3的能力更强。”另外,就像GPT-3不是实现真正人类语言能力的正确研究方向一样,GPT-f也不是实现真正人类(更不用超过人类)的数学定理证明的正确研究方向。

Ben Goertzel还专门撰写了一篇博客表达自己的观点。

博客地址:https://multiverseaccordingtoben.blogspot.com/2020/09/gpt-f-one-more-funky-experiment-in.html

不过,他也表示,从总体背景来看,GPT-f 在ATP方面应用是有意义的进展,这项研究与该领域其他专家正在进行的大量研究进展相符。

事实上,基于 Transformer架构的GPT-3模型虽然在文本生成方面具有强大性能,但其始终未通过图灵测试,而且它在简单的数学推理方面存在明显的缺陷。

对于同样基于Transformer模型的GPT-f也难免陷入这样的质疑,即语言模型是真正理解了数学定理之间的逻辑关系,还是只是这一模型只是简单理解了语意?

【编辑推荐】

  1. 终于找到了一款我喜欢的安装和管理 Go 版本的工具
  2. MySQL事务与MVCC如何实现的隔离级别
  3. 企业希望管理云计算快速增长的成本
  4. Windows 10拒绝让系统变慢新招:有应用添加到开机启动时弹窗提示
  5. 分手后,你还在悄悄用我的账户密码吗 ?

OpenAI首次推出数学定理推理模型GPT-f,23个推导结果被专业数据库收录相关推荐

  1. 定理在数学中的简写形式_这些鲜为人知的数学定理,颠覆你的认知!

    谁说数学是枯燥的?在数学里,有很多有趣而又深刻的数学定理,不但深受数学家们的喜爱,在数学迷的圈子里也广为流传. 一.喝醉的小鸟 定理:喝醉的酒鬼总能找到回家的路,喝醉的小鸟则可能永远也回不了家. 假设 ...

  2. OpenAI推出数学推理证明模型,推理结果首次被数学家接受

    大数据文摘出品 作者:牛婉杨 今年6月,OpenAI发布一款强大的文本生成模型GPT-3,不少网友迅速上手用了起来,有人用它写食谱.写歌词,甚至有人用它写博客,愣是以假乱真登上了新闻平台技术板块热榜第 ...

  3. 盘点那些欺骗我感情的数学定理

    全世界只有3.14 % 的人关注了 爆炸吧知识 一直以来,关于定理.公式的命名,人们都倾向于用数学家的名字命名,不仅简单方便,还可以达到纪念创立人的效果. 不过,也不是每一次都这么好的,超模君发现,有 ...

  4. LLMs:OpenAI 官方文档发布提高 GPT 使用效果指南—GPT最佳实践(GPT best practices)翻译与解读

    LLMs:OpenAI 官方文档发布提高 GPT 使用效果指南-GPT最佳实践(GPT best practices)翻译与解读 导读:为了获得优质输出,需要遵循几点基本原则: >> 写清 ...

  5. 十个漂亮的数学定理赏析

    原地址 十个漂亮的数学定理赏析 Beauty is the first test: there is no permanent place in the world for ugly mathemat ...

  6. Nature:AI 引导人类直觉,帮助发现数学定理

    来源:集智俱乐部 作者:Alex Davies, Petar Veličković, Lars Buesing等 译者:赵雨亭  审校:潘佳栋  编辑:邓一雪 导语 我们通常认为,数学家的世界充满了直 ...

  7. 数学定理可以这样证明

    理科作为很多科学研究的基础学科,相信大家也都有一个印象,就是一定要理解.比如数学,初中的数学公式很多都是作为定理教给学生的,但是碍于教学工具的不足,很多数学老师也不会仔细的给学生们多讲.学生们最多只是 ...

  8. ​DeepMind Nature发文:AI首次实现数学领域的重大进展

    本文约2500字,建议阅读9分钟 希望这项工作可以作为深化数学和AI领域之间合作的一个模型. 作为一门古老的学科,数学的内容包括发现某种模式,并使用这些模式来表述和证明猜想,从而产生定理. 自20世纪 ...

  9. 登顶Nature | DeepMind用AI首次实现数学领域重大进展,助力科学家证实两大猜想

    来源:AI科技评论 作者:杏花.莓酊 编辑:琰琰 数论是人类知识最古老的一个分支,然而它最深奥的秘密与其最平凡的真理是密切相连的.数学原理极易从事实中归纳出来,但证明却隐藏的极深.可以说数学,是一切科 ...

最新文章

  1. POJ-1094 Sorting it All Out
  2. Codeforces Round #479 (Div. 3)【完结】
  3. Coding:在数组中查找具有给定总和的对
  4. java定义矩形类rect_Java定义矩形类
  5. publiccms中,怎么修改默认的端口8080以及默认上下文名称
  6. React开发(137):ant design学习指南之form中日期时间处理format时间处理
  7. 如何用jQuery获得select的值
  8. DOS批处理高级教程精选(二)
  9. svn   /lib64/libz.so.1: no version information available
  10. 能力提升综合题单Part 8.2 最短路问题
  11. 算法笔记方法论4 枚举法 详细笔记
  12. 项目日历是什么?如何规划?
  13. 一生中必看的30个故事
  14. loadIdealTree:loadAllDepsIntoIdealTree: sill install loadIdealTree
  15. 证券交易api 查询证券编码及基本上市信息
  16. 留在Facebook:首席运营官桑德伯格否认将加入希拉里政府
  17. 解决ViewPager嵌套WebView时滑动冲突问题
  18. Python实现简易中国剩余定理(信安密码实验)
  19. 数据库判断关系是第几范式
  20. 火影忍者手游人最多的服务器,火影忍者手游:很多人都认为游戏在走下坡路,弃坑玩家越来越多?...

热门文章

  1. bst latex 最大作者数_latex bst文件怎么用
  2. php做gui,php7 图形用户界面GUI如何开发
  3. markdown编辑器 typora的安装和使用
  4. BiLSTM+CRF的损失由发射矩阵和转移矩阵计算而得 BiLSTM+CRF命名实体识别:达观杯败走记(下篇
  5. 2020-08-23logloss对数损失函数
  6. 论坛报名 | 人工智能与疫情精准防控
  7. 作为谷歌开发者布道师,我为什么要写这本通俗的《数据压缩入门》(一)
  8. 语音合成系统之pyWORLD,WORLD使用简介
  9. 深度学习中用于张量重塑的 MLP 和 Transformer 之间的差异图解
  10. R语言 lightgbm 算法优化:不平衡二分类问题(附代码)