视学算法报道  

编辑:LRS

【导读】人类主导的数学领域也要被AI攻克了?

张益唐教授最近发布的论文宣布攻克「郎道-西格尔零点猜想问题」,着实让数学之美火出了圈。

实际上每个定理的证明都需要天才般的灵感和不断尝试。论灵感一现,机器永远也比不上人类;但论刻苦能力,那AI模型可以甩人类十条街,给它资料它真学啊!

长期以来,科学界也一直将「AI能够自动进行定理证明」视为制造智能机器的关键一步。

要证明一个特定的猜想是真是假,需要用到符号推理,并在无数可能种可用方法中选择一条正常的方向。

最近Meta在NeurIPS 2022上发布了一个神经定理证明器(neural theorem prover),成功解决了10道国际数学奥林匹克(IMO)的问题,比之前最强的AI系统高5倍。该模型还在miniF2F数据集上比当前最先进的模型性能提高20%,在Metamath基准上提高10%

论文链接:https://arxiv.org/pdf/2205.11491.pdf

文中提出的全新搜索算法——超树证明搜索(HyperTree Proof Search, HTPS)灵感来自于AlphaZero

通过在线学习,HTPS在一个包含大量成功数学证明的数据集上学习搜索,使其能够泛化远离训练集的领域,即在新的且不同种类的问题仍然可用,最终HTPS能够对一个包含有限种情况的IMO问题推导出一个正确的证明。

实验结果表明,仅用HTPS算法就可以证明65.4%的Metamath定理,大大超过了之前GPT-f的56.5%的水平,对这些未被证明的定理进行的在线训练可以将准确率提高到82.6%

研究人员通过Lean Visual Studio Code插件提供了该模型,其他研究者可以在流行的Lean环境中继续探索该人工智能模型的功能。

数学题vs下围棋

国际数学奥林匹克IMO是世界首屈一指的高中数学竞赛。

自1959年以来,来自中学的学生们需要解决代数、组合数学、数论和几何中具有挑战性的问题,想要完成题目需要创造力和强大的推理技能,但有些问题太难了,以至于大多数学生都只能得零分。

专家们长期以来一直认为,想要建立一个可以在IMO中与人类抗衡的AI系统是一个巨大的挑战。

总体来说,定理证明比下围棋、国际象棋这样的棋盘游戏更具挑战性。

首先,当模型试图证明一个定理时,每一步可能的action空间不是很大,而是无穷大。

并且在国际象棋或围棋比赛中,即便某一步没有找到最优解,最终仍然有可能赢得对局;而对于定理证明来说,死胡同就是死胡同,一步做错,满盘皆输,之前的所有计算工作全是白费力气。

同时数学题中也可能存在特殊的解题方法,对于人类来说,可能属于最简单的一类问题,但从AI的角度来看,这种方法因为其特殊性,在标准训练数据中很少出现,所以AI很难学会。「暴力搜索」对这种无穷大的搜索空间来说也无能为力。

无论对人还是机器来说,想解决这类问题,必须依靠「创造性推理」方法。

之所以会出现这类问题,是因为之前的定理证明器过于依赖语言模型,虽然GPT-3等可以解决部分数学题,但它仍然探索不同方法的能力,这种技能对于解决需要「创造力」的数学问题来说至关重要。

接近人类的推理能力

数学推理的过程很难写,但更难量化。

目前相关研究方法主要集中在制造能够「立刻」解决问题的AI算法,即在一个step中生成一个完整的问题解决方案。

很明显,人肯定不是这么做数学题的,人类需要利用直觉,把一个复杂的问题分解成多个子问题,然后寻找增量式解决的方法。

为了模拟一种更「类人」的方法,需要神经定理证明程序将特定的「状态」与当前「对问题不完全的理解」联系起来。

研究人员采取的方法是利用强化学习与现有的证明辅助(如 Lean)结合搭建训练环境。

计算机证明辅助实现了一个逐步的推理机制,可以将(不完全)证明的「当前状态」解释为图中的一个节点,并将每个新步骤解释为一个边,这种方法已被证明是对围棋或国际象棋等双人游戏非常有效的技术。

最后,还需要一种方法来评估证明状态的质量,类似于下棋的人工智能需要评估游戏中的每个位置对于局势的影响。

研究人员使用了蒙特卡罗树搜索(MCTS)启发的方法,其中模型在两个任务之间循环:1)在给定的证明状态下使用的合理参数的先验估计;2)给定一定数量的参数后的证明结果。

HTPS 是标准 MCTS 方法的一个变体。在这种方法中,为了探索一个图,人们利用关于图的先验知识来选择一组叶子来展开,然后通过备份校正来精炼初始知识。图是逐步探索的,关于图结构的知识通过迭代得到细化。

这样就可以使用在线训练程序,从而大大提高最初预训练的模型在某一类问题上的表现,即可以解决类似于IMO竞赛中的问题。

最后的实验结果显示,该方法能够解决10个未见过的IMO问题,并且在Minif2f验证集准确性方面达到67% 的准确性ーー比目前公布的最新技术水平高出整整20% 。

从软件验证到航空航天

制造出能够解决高等数学问题的AI模型将对现实世界产生影响,尤其是在软体验证领域。

许多公司(包括 Meta)都在使用形式证明来验证软件。事实上,用于验证软件和证明定理的工具和形式系统是相同的,主要区别在于模型所依据的数据类型: 函数数据集或数学定理。

除了软体验证,还有许多工业应用,尤其是在复杂性不断增加、自动化渗透到关键任务中的情况下,包括密码学和航空航天,其中操作条件可以变化,测试和模拟是至关重要的。

参考资料:

https://ai.facebook.com/blog/ai-math-theorem-proving/

点个在看 paper不断!

数学奥赛狂砍10题!Meta发布全新定理证明器:AI即将接管数学?相关推荐

  1. 推理速度数倍提升,大幅简化多GPU后端部署:Meta发布全新推理引擎AITemplate

    来源丨机器之心 刚刚,Meta 发布了革命性的推理引擎 AITemplate.测试结果显示,相比 PyTorch Eager,AITemplate 在 NVIDIA GPU 上实现了最高 12 倍的性 ...

  2. 数学竞赛问题用计算机解决,数学奥赛冠军都做不对的题,却被拿来考ML模型?GPT-3:我不行...

    来源:机器之心 编辑:魔王 为了衡量机器学习模型的数学求解能力,来自 UC 伯克利和芝加哥大学的研究者提出了一个包含 12, 500 道数学竞赛难题的新型数据集 MATH,以及帮助模型学习数学基础知识 ...

  3. 阿里全球数学竞赛最强10人名单出炉:仅1人来自北大,但北大是最大赢家

    点击上方"AI遇见机器学习",选择"星标"公众号 重磅干货,第一时间送达 鱼羊 杨净 发自 凹非寺 量子位 报道 | 公众号 QbitAI 又一次的全球数学狂欢 ...

  4. 数学奥赛大神,两次以满分获IMO金牌,北大数学博士提前毕业

    他是数学奥赛大神,两次以满分获得国际数学奥林匹克竞赛IMO金牌,如今已北大数学博士提前毕业,仍然活跃在数学竞赛界. 最近中国在2019第60届国际数学奥林匹克竞赛中获得总成绩世界第一,六名参赛队员全部 ...

  5. sqlserver 分组合并列_数学奥赛中美两国并列第一,这场数学巅峰对决竟是中国天才少年的内战?...

    来源:综合微信公众号"侠客岛之家" 超级数学建模 微博等报道 这几天,第60届国际数学奥林匹克竞赛(IMO)正在英国巴斯举行,在今天早晨刚公布的成绩名单中,中美两国并列第一,韩国1 ...

  6. 在元宇宙里怎么交朋友?Meta发布跨语种交流语音模型,支持128种语言无障碍对话...

    来源:AI前线 本文约1500字,建议阅读5分钟 本文为你介绍 XLS-R--一套用于各类语音任务的新型自监督模型. 改名 Meta 之后,Facebook 的元宇宙愿景正在一点点实现.这一次,Fac ...

  7. 狂肝10个月手搓GPU,他们在《我的世界》里面玩《我的世界》

    梦晨 衡宇 萧箫 发自 凹非寺 量子位 | 公众号 QbitAI 自从有人在<我的世界>里用红石电路造出CPU,就流传着一个梗: 总有一天,这帮红石佬能在我的世界里玩上我的世界. 这一天, ...

  8. 高考数学考用计算机求函数吗,高考数学52种快速做题方法整理!再也不用担心考试时间不够了...

    原标题:高考数学52种快速做题方法整理!再也不用担心考试时间不够了 1 . 适用条件 [直线过焦点],必有ecosA=(x-1)/(x+1),其中A为直线与焦点所在轴夹角,是锐角.x为分离比,必须大于 ...

  9. 基于2022高考数学全国卷I概率题解题思路初步分析新冠病毒疫苗

    基于2022高考数学全国卷I概率题解题思路初步分析新冠病毒疫苗 1. 2022高考数学全国卷I概率题 2. 卡方(χ2\chi^2χ2)检验原理回顾 3. 解答2022高考数学全国卷I概率题 4. 上 ...

最新文章

  1. CF-85E.Guard Towers(二分+染色)
  2. android transfer error: Read-only file system
  3. How is OData selected implemented
  4. ssl2124-涂色【离散化】
  5. Java-类加载器-类运行时结构-。。。。
  6. 计算机图形学图形旋转_计算机图形学翻译
  7. Windows Win7建立wifi热点,手机共享WIFI上网
  8. H5在线商城/全新商城支持团购优惠劵砍价
  9. 怎样才能在前端职场中拥有更强的竞争力?
  10. 微信小程序之旅一(页面渲染)
  11. VMware Workstation安装RedHat Linux 9
  12. 【Android游戏开发二十】物理游戏之重力系统开发,让你的游戏变得有质有量!...
  13. linux 安装tomcat
  14. 基于Markov区制转换模型的股票波动分析
  15. ubuntu双系统时间同步_ubuntu和windows时间不同步的问题解决 双系统安装
  16. Ubuntu16.04定时执行功能
  17. linux下chm阅读器
  18. Windows10下美化字体,达到类似mac的效果
  19. cass块参照怎么改颜色,CASS符号颜色自定义的诀窍,都在这里了!
  20. linux常用命令:文本编辑

热门文章

  1. 【无标题】以太网帧结构
  2. 无锡清空win8应用商店缓存_微软surface常用清理内存缓存解决办法
  3. hana odata batch
  4. 数据挖掘(一)频繁模式挖掘算法的实现和对比
  5. 文本意图识别方案整理
  6. Fiddler抓取HTTPS最强攻略
  7. element el-dialog样式修改
  8. StateFlow-自动变速逻辑搭建
  9. MySQL数据库深度讲解
  10. 一个好的 ERP 系统需要具备哪些功能模块?