大数据文摘出品

作者:牛婉杨

今年6月,OpenAI发布一款强大的文本生成模型GPT-3,不少网友迅速上手用了起来,有人用它写食谱、写歌词,甚至有人用它写博客,愣是以假乱真登上了新闻平台技术板块热榜第一。

前不久,OpenAI再次放出大招。这次,研究人员发布了一篇论文《Generative Language Modeling for Automated Theorem Proving》,推出了一款用于自动定理证明(ATP) 的GPT-f模型。GPT-f基于Transformer语言模型,可以为Metamath形式化语言提供自动证明器和证明助手。

论文地址:

https://arxiv.org/pdf/2009.03393.pdf

GPT-f有什么特别之处?

论文一作Stanislas Polu在推特上进行了介绍,他们在实验中发现,GPT-f比现有自动定理证明器还要优秀,可完成测试集中56.22%的证明,而现有的SOTA模型MetaGen-IL也只能证明21.16%的定理。

此外,GPT-f还发现了新的简短证明,已有23个简短证明被收入Metamath函式库中。这是深度学习模型的定理生成证明首次被数学家接受。

那么大家对于GPT-f是怎么看的呢?

网友普遍保持中立,大佬认为没有特别之处

文摘菌想在推特上看看网友们的讨论,没想到AI界的一些大佬也发表了自己的看法。

Robust.AI、Geometric Intelligence两家AI公司的创始人,研究人工智能领域多年的科学家Gary Marcus认为,“就像GPT-3不是研究真正人类语言的正确方向一样……, GPT-f并不是达到真正人类水平(更不用说超越人了)的数学定理证明的正确研究方向。”

他还称,人们一直在误用GPT来解决它不适合解决的问题,同样的问题也不断出现。

美国通用人工智能会议主席、奇点大学顾问、人工智能软件公司 Novamente LLC 公司董事长   Ben Goertzel 也在推特发表了自己的看法,他认为,GPT-f 又是一个在不理解的情况下指导定理证明的古怪实验……

他还专门写了一篇文章来谈论对于GPT-f的看法,发表在了自己的博客上。

博客地址:

http://multiverseaccordingtoben.blogspot.com/2020/09/gpt-f-one-more-funky-experiment-in.html

Ben还在博客中写道,“从ATP领域正在进行的工作的总体背景来看,在我看来,GPT-f 不像 GPT-2或GPT-3 那样迈出了一大步——但可以肯定的是,它在ATP方面是有意义的进展,与这一领域其他专家正在进行的大量研究进展相符(然而,这些专家因为没有像OpenAI那样的公关预算而不被媒体报道)。GPT-f 还有一个与其他GPT类似的核心缺点——它在理解数学这方面并不比GPT-2或GPT-3理解语言的能力更强。”

那网友们怎么看呢?

现阶段网友们普遍是一种吃瓜的态度,并没有对GPT-f大肆夸耀。大部分只是转发了相关推文并陈述了论文中GPT-f实验的成果。

也有一部分网友在论坛中发表了自己的疑问。

比如网友@Jason Rute 就问到:什么才是有效的证明步骤?Jason Rute曾经是一名数学家,后来成为了数据科学家,他对深度学习很感兴趣。

GPT-f将同时返回一个定理和替换,然后它们必须与目标统一。如果替换不统一,那么我确定它被标记为无效。然而,如果这个定理不在先前证明的定理列表中呢?GPT-f是做什么的?

1)试着证明这个定理;

2)认为这是一个无效的证明步骤,还是将输出限制在已知的定理上?

(我想会是第一条,但我还是想验证一下。)

论文一作Stanislas Polu也在论坛对此进行了回复,并表示这是个好问题。

• 如果统一失败,内核会拒绝验证步骤,甚至在验证树搜索中也不会考虑它(不会添加到树或队列中,也不会由值函数赋值)。

• 如果该定理在数据库中没有被报告,那么该定理也将被拒绝。这就是说,我们正在试验让模型证明这些猜想,如果它们被价值函数认为有趣的话。在这种情况下,我们只需将定理本身添加为子目标(带有一个特殊的标记,以确保一旦找到证据,我们就重新检查不同的变量(DVs是一种元数学技术,可以在您的思维中抽象出来,如果您不知道它们是如何工作的,可以稍后再访问)),然后子目标会相应地被赋值并添加到队列中。

针对这个问题,Jason Rute在论文作者回复后还追加了提问,详细讨论可以看这里:

https://leanprover-community.github.io/archive/stream/219941-Machine-Learning-for-Theorem-Proving/topic/GPT-f.20paper.html#210087032

Jason Rute还说,“在许多方面GPT-f类似于之前出现的其他定理证明,HOList/DeepMath, CoqGym/ASTTactic, TacticToe等等。所有这些的共同之处在于它们把定理证明当作树搜索。长期以来,我们所知道的是,采用智能启发式可以避免树(和图)搜索中的组合爆炸。AlphaGo及其后继者告诉我们的是,这些启发式完全可以从例子中学习,也可以从引导和强化学习中学习。GPT-f在这方面没有什么不同。(关于GPT-f使用的特定树搜索算法,我不打算说得太多,因为我不认为他们的方法比其他类似的论文优化很多。)”

此外,文摘菌也翻了一下知乎,只有一个相关问题,而且该问题下只有一个回答。由此可见,国内网友可能还不太知道GPT-f,也可能由于发布时间并不长,大家对于GPT-f还处在比较懵的状态。

如果你对GPT-f有更好的了解或看法,欢迎在评论区分享~

GPT-f 由自动证明器和证明助手组成

GPT-f是由两部分组成的,分别是自动证明器和证明助手。

自动证明器是为了寻求更简短的证明,研究人员从 Metamath 的 set.mm 库中采样命题证明,并对比 GPT-f 模型找到的解与真值的长度,同时还验证了简短证明不依赖于额外的公理。

证明搜索包括维护一个证明树,其中从根目标开始探索每个目标的多种策略。

OpenAI利用在线证明助手,来帮助模型产生交互式的证明架构。下图展示了 GPT-f 证明助理的界面:

Metamath是一种用于存档,验证和研究数学证明的语言和计算机程序。研究人员使用Metamath作为正式环境,使用类似于GPT-2和GPT-3的仅解码器的转换器来创建具有各种预训练数据集和不同大小的模型。他们最大的模型具有36层和774m可训练参数。

各种模型大小和预训练数据集的性能

说了这么多,那什么是自动定理证明呢。

百度百科中是这样描述的:自动定理证明是人工智能研究领域中的一个非常重要的课题,其任务是对数学中提出的定理或猜想寻找一种证明或反证的方法。因此,智能系统不仅需要具有根据假设进行演绎的能力,而且也需要一定的判定技巧。

研究人员发现,学习证明定理与学习玩棋盘游戏之间有相似之处,因为它们都提供了自动确定成功的方法,并生成新的数据。因此,AlphaZero在围棋领域的成功表明,自动定理证明可能是神经网络推理研究的一个富有成效的领域。

相关讨论及参考:

https://www.reddit.com/r/MachineLearning/comments/ipdu7m/r_gptf_a_new_sota_for_automated_mathematical/

https://medium.com/@raevskymichail/gpt-f-neural-network-theorem-proofs-28caacba5468

http://ai.chinabyte.com/239/714875739.shtml

https://syncedreview.com/2020/09/10/openai-gpt-f-delivers-sota-performance-in-automated-mathematical-theorem-proving/

未来智能实验室的主要工作包括:建立AI智能系统智商评测体系,开展世界人工智能智商评测;开展互联网(城市)云脑研究计划,构建互联网(城市)云脑技术和企业图谱,为提升企业,行业与城市的智能水平服务。

  如果您对实验室的研究感兴趣,欢迎加入未来智能实验室线上平台。扫描以下二维码或点击本文左下角“阅读原文”

OpenAI推出数学推理证明模型,推理结果首次被数学家接受相关推荐

  1. 千元显卡玩转百亿大模型,清华推出工具包BMInf让模型推理轻而易举

    最近在工业界与学术界,最热门的方向莫过于预训练语言模型.而具有百亿乃至千亿参数的大规模预训练语言模型,更是业界与学术界发力的热点. 但现在大模型的应用却有着较高的门槛,排队申请或需要付费的API.较长 ...

  2. 使用MindStudio 进行Deit 模型推理迁移

    介绍 软件简介 本文旨在帮助用户使用 CANN 架构和 MindStudio 平台进行 AI CPU 离线模型推理指导.其中 CANN(Compute Architecture for Neural ...

  3. OpenAI首次推出数学定理推理模型GPT-f,23个推导结果被专业数据库收录

    最近,GPT家族又添了一位新成员-GPT-f 提到GPT家族,首先想到了必然是今年大火的GPT-3,这款基于Transformer架构的语言模型,在文本生成方面的能力,已经可以达到以假乱真,欺骗人类的 ...

  4. 上面两点下面一个三角形_章勤琼:三角形内角和180该如何说明 ——小学数学中的合情推理和演绎推理...

    (以下内容全文转自<教学月刊(小学版)>2019年第11期58-61页"数说九章"专栏.参考文献方式:章勤琼, 杜娅茹.三角形内角和180°该如何说明--小学数学的合情 ...

  5. 非证明的推理 | 大师经典「AI核心算法」

    关注:决策智能与机器学习,深耕AI脱水干货 作者 |   罗素 报道 |  人机与认知实验室 导言:科学与经验,理性和感性是否对立不可调和?其相通性又在何处?听听大师罗素的深刻思考,或许对于AI如何从 ...

  6. 《Pytorch 模型推理及多任务通用范式》第三节作业

    1 课程学习 本节课主要对于大白AI课程:https://mp.weixin.qq.com/s/STbdSoI7xLeHrNyLlw9GOg <Pytorch 模型推理及多任务通用范式>课 ...

  7. 较为详细的记录总结TensorRT的python接口的使用,环境配置,模型转换和静态动态模型推理

    先来一段摘抄自网上的TensorRT介绍: TensorRT是英伟达针对自家平台做的加速包,TensorRT主要做了这么两件事情,来提升模型的运行速度. TensorRT支持INT8和FP16的计算. ...

  8. 深度学习实战——模型推理优化(模型压缩与加速)

    忆如完整项目/代码详见github:https://github.com/yiru1225(转载标明出处 勿白嫖 star for projects thanks) 目录 系列文章目录 一.实验思路综 ...

  9. 基于 MindStudio 的 ICNet模型推理全流程

    1.介绍 本文旨在帮助用户使用 CANN 架构和 MindStudio 平台进行 AI CPU 离线模型推理指导. 其中 CANN(Compute Architecture for Neural Ne ...

最新文章

  1. LeetCode--495
  2. python2安装_Linux 上安装 appium 的辛酸
  3. SpringBoot面向切面编程-用AOP方式管理日志
  4. 6.非关系型数据库(Nosql)之mongodb:集群(主从复制)
  5. 阿里面试题剖析,如何保证消息不被重复消费?
  6. 离散事件模拟(银行业务模拟。实现算法3.6、3.7的程序)
  7. 微信公众平台运营指导
  8. 腾讯云三大自研数据库之一 TBase 开源后首次重磅升级,复杂查询性能最高提升十倍
  9. 我是如何在 10 分钟内搞砸 IT 面试的
  10. 计算机毕业设计中用Java+Html+MySQL 实现注册、登录(servlet框架)-(二
  11. 配置Windows Server 2008群集
  12. numpy—np.stack、np.hstack、np.vstack
  13. Java轻量级缓存Ehcache与SpringBoot整合
  14. HTML页面转PDF导出加水印并解决字被截断的问题
  15. 软件工程毕业,在北京工作两年后再来理解《人月神话》
  16. 在职研究生计算机专业学什么区别,计算机专业在职研究生考试科目有哪些?
  17. win10账号被锁定如何解决
  18. 百度首次元宇宙里开大会,李彦宏:智能交通将使5年内一线城市不再限购限行...
  19. 【原创】浅谈在探索数分之路上“数据思维”培养
  20. cpld xilinx 定义全局时钟_FPGA/CPLD设计工具:Xilinx ISE 5.x使用详解

热门文章

  1. 基于tensorflow的MNIST手写字识别
  2. opencv resize (C/C++/Python)
  3. Java虚拟机的静态常量池和运行时常量池
  4. 如何挖掘医疗数据?看这份KDD2021《异构医疗数据挖掘》教程
  5. 用数据品鉴咖啡,407杯咖啡数据教你如何区分咖啡等级和风味
  6. 深度解析工业软件:研究框架(140页)
  7. 世界欠他一个图灵奖! LSTM之父的深度学习“奇迹之年”
  8. 独家 | 手把手教你用PyTorch快速准确地建立神经网络(附4个学习用例)
  9. DeepLab: Semantic Image Segmentation with Deep Convolutional Nets, Atrous Convolution--阅读笔记
  10. 我离开Uber,开始自主创业后......