被数学题难倒的AI

做数学题一直令多数人头疼不已的事情。近期,DeepMind团队最新研究了利用AI来解数学题,但结果令人大跌眼镜——水平不及高中生。

数学也难倒了AI。

数学可能是大多数人在求学过程中最头疼的一门科目。近日,DeepMind团队便对“AI做数学题”进行了研究,结果大跌眼镜:“万能的AI”在面对数学问题也是不知所措!

人类解题能力超群的关键在于,人类并非主要通过经验和证据,而是通过推断、学习,以及利用定理、公理和符号操纵规则。

DeepMind团队便对神经架构和类似系统的评估(以及最终的设计)提出了新的挑战,开发了一个数学问题的任务处理套件,涉及以自由形式文本输入/输出格式的系列问题和答案。

不过,在研究过程中,DeepMind发现,AI非常擅长做的数学题都是比较偏简单的,例如:查找数字中的位值、四舍五入小数/整数等。但是在诸如素数检测、因式分解以及多项式操作等方面,性能结果存在显著的差异。

AI做数学的能力不及高中生水平?

AI挑战人类最难学科

深层模型远未达到人类所表现出的稳健性和灵活性,由于自身能力的限制,深度学习无法超越所经历的环境去生成新的东西,并且面对存在对抗性构建的输入时极其脆弱。

与神经模型相比,人类智能擅长的一个领域是关于物体和实体的离散组合推理,即“代数泛化”,这个领域也体现了神经模型和人类智之间的差异。

人类在这个领域内的概括能力是复杂的、多方面的。先来看这个数学题:

当:f(x)= 2x + 3,g(x)= 7x-4,h(x)= -5x-8时

求:g(h(f(x)))

人类解决这道数学题时候,用到的各种认知技能有:

将字符解析为数字,算术运算符,变量(一起形成函数)和单词(确定问题)等实体

计划(例如,以正确的顺序识别功能以进行撰写)

使用子算法进行函数合成(加法,乘法)

利用工作记忆来存储中间值(例如合成h(f(x)))

通常应用已获得的规则,转换,过程和公理知识

DeepMind在这篇论文中引入了一个由许多不同类型的数学问题组成的数据集,对于模型来说,优于缺乏上述人类能力,在处理跨系列的问题类型(包括我们在下面详述的泛化)的时候难度更大,更难获得良好的表现。

该领域对于一般的神经结构的分析是重要的。除了提供广泛的问题外,还有其他几个优点:

数学提供了一个自洽的宇宙(self-consistent universe);

符号在不同的问题类型中是相同的,是的数据集更容易得到扩展的;

在一种问题类型上学习的规则和方法通常适用于其他地方。例如数字的加法在任何地方都遵循相同的规则,并且在其他问题中作为“子程序”出现,具体体现在乘法中,以及具体且更抽闲的体现在多项式中;

具有转移知识能力的模型将在数据集上获得更好的表现(知识迁移可能是解决更难问题的必要条件)。

数学本身也是一个有趣的领域,虽然解决该数据集中大多数中学数学问题的模型本身不具备应用程序,但它们可能会导致更强大的模型,这些模型可以解决有趣且实质性的新数学问题。

或者更一般地说,寻求验证以捕获算法/系统推理为目标的新架构的实验经常从这个领域中得出,这并非巧合。因此,在为这些模型提供大规模的训练和评估框架时,希望为继续研究超越数学的机器推理提供坚实的基础。

请看以下数学问题集示例:

问题:对于r,求解-42*r+27*c=-1167和130*r+4*c=372。

答案:4

问题:计算-841880142.544+411127。

答案:-841469015.544

问题:Letx(g)=9*g+1。Letq(C)=2*C+1。Letf(i)=3*i-39.设w(j)=q(x(j))。计算f(w(a))。

答案:54*a-30

问题:设e(l)=l-6.2是e(9)和2的因子吗?

答案:错

问题:设u(n)=-n**3-n**2。设e(c)=-2*c**3+c。令l(j)=-118*e(j)+54*u(j)。l(a)的衍生物是什么?

答案:546*a**2-108*a-118

问题:从qqqkkklkqkkk中选择了三个字母而没有替换。给出序列qql的概率

答案:1/110

研究中的主要贡献

数据集和泛化测试

研究人员发布1个序列到序列的数据集,包括许多不同类型的数学问题(见图1),用于测量数学推理,同时提供生成代码和预生成的问题。

数据集附带两组测试:插值测试,一个针对训练集中出现的每种类型的问题;外推测试,测量沿着各种难度轴的概括超出训练期间的概括。将外推测试作为模型是否采用允许它们进行代数泛化的能力的额外度量。

实验和模型分析

本文利用一个实验评估来研究最先进的神经架构的代数能力,实验表明它们在某些类型的问题上表现良好,但肯定不是全部,而且只有适度的数量一般化。我们对他们如何学习回答数学问题及其失败模式提供了一些见解。

由于该数据集背后的构建过程,有大量现有模型可以进行调整、专门构建或定制,以解决提出的问题,特别是在符号求解器或计算机代数系统的帮助下。

模型检验

随着问题和答案的复杂性或语言多样性的增长,撇开传统符号方法可能的脆弱性或可扩展性的限制,我们对评估通用模型更感兴趣,而非已经内置数学知识的模型。

使这些模型(总是神经架构)从翻译到通过图像字幕解析无处不在的原因,是这些函数逼近器缺乏偏差,因为它们的设计中编码的域特定知识相对较少(或没有)。

虽然有一些神经网络驱动的方法可以直接访问数学运算(例如加法或乘法,或更复杂的数学模板,这无疑是我们在本文中提出的任务中具有竞争力,我们将局限于一般的序列处理架构,这些架构用于其他非数学任务,以便为将来的比较提供最一般的基准。

论文研究了两种(广泛的)模型,这些模型已经证明了它们在序列到序列问题上的最新技术:循环神经架构,以及最近引入的Attention/Transfomer结构。 我们还尝试使用可微分神经计算机,这是一种具有“外部存储器”的复现模型(其大小与网络中的参数数量无关)。

理论上,这可能非常适合解决数学问题,因为它可以存储中间值以供以后使用。然而,却无法从中获得不错的表现,即使对于内存插槽的数量和大小的超参数扫描等,在训练一天后才能达到10%的验证性能,而大多数模型在不到一个小时内就能获得这一点。

图2:注意力LSTM和Transformer体系结构都包含一个解析问题的编码器和一个解码器,它将正确的答案右移1个映射到每个位置的答案中的下一个字符(因此允许自回归预测):

(a)注意LSTM将问题编码为一系列(关键,值)位置,然后由解码器进行处理

(b)变压器有几个阶段的自我注意和输入注意

循环结构

LSTM 是一个强大的序列到序列模型构建模块,它在许多领域都达到了最先进的结果,尽管它很简单,但仍然是循环神经网络的一个核心构建模块。本文测试了两个标准的循环结构。

第一个(也是最简单)模型,称作“Simple LSTM”是直接将问题提交到LSTM,一次输入一个字符(采用1-hot编码);

第二个模型称作“Attentionnal LSTM”,是引入具有注意力结构的编码器/解码器。

在这两种体系结构中,还使用了一个简单的更改来提高性能。所描述的模型必须在解析问题之后直接输出答案。

近期,一种称为关系递归神经网络或关系内存核(relational memory core,RMC)的递归体系结构被开发出来作为LSTM的替代品。这个重复单元有多个记忆槽,它们通过注意力相互作用。

TRANSFORMER

Transformer模型是一个实现机器翻译的最先进结果的序列到序列模型。图2b对其做了简要的描述。该模型由编码器和解码器组成,前者将问题(表示为向量序列)转换为另一个相同长度的序列,后者将编码的问题和答案转换为答案预测。

性能分析

训练和评估方法

与序列到序列模型中常见的方法一样,这些模型使用贪婪解码器(每一步输出多数类)自回归地预测答案。通过Adam优化器最小化正确字符的对数概率之和,学习率为6×10-4,β1= 0.9,β2= 0.995,ε= 10-9。 使用批量大小为1024的8个NVIDIA P100 GPU进行500k批次分割,绝对梯度值限幅为0.1。

实验结果

图3显示了不同结构的平均插值和外推(extrapolation)性能。

图3模型精度(正确答案的概率)在各个模块之间取平均值。RMC是关系递归神经网络模型。

LSTMs vs RMCs

使用具有多个内存插槽的RMC不会提高性能;也许RMC很难学会使用插槽来操纵数学实体。对于给定数量的隐含单元,RMC的数据效率更高,但训练速度更慢(因为它们有更多的参数),LSTMs具有更好的渐近性能。

Simple vs Attentional LSTM

Attentional LSTM和Simple LSTM具有相似的性能。有人可能会怀疑Attentional LSTM什么也不做,但事实并非如此,因为与解析LSTM大小相同的Simple LSTM模型获得的性能要差得多。我们推测,注意力模型并没有学习算法解析问题,因此每一步改变注意力焦点的能力并不重要。

“思考”步骤数

对于Attentional LSTM模型,可以观察到,将“思考”步骤的数量从0增加到16,可以提高性能。

Transformer vs 最好的非transformer模型

Transformer在几乎所有模块上的性能与递归模型相同,或者明显优于递归模型。这两种体系结构具有相当数量的参数。人们可能会预先期望LSTM执行得更好,因为它的顺序体系结构可能更类似于人类执行的顺序推理步骤。然而,实验表明,这两种网络都没有做太多的“算法推理”,并且Transformer相对于LSTM架构具有各种优势,例如:

使用相同数量的参数进行更多计算;

具有更好的梯度传播;

有一个内部连续的“记忆”。

对神经网络来说最简单的数学问题

最简单的问题类型是查找数字中的位值,以及四舍五入小数和整数,所有模型在这些方面都获得了近乎完美的分数。涉及比较的问题也往往相当容易,因为这类任务是相当感性的(例如比较长度或单个数字)。

对神经网络来说最困难的数学问题

也许并不奇怪,一些最难的模块包含了更多的数字理论问题,这些问题对人类来说也很难,比如检测素数和因式分解。

Transformer模型在“加或减几个数字”模块和“乘数或除数”模块的性能为90%或更高。然而,在混合算术模块上,性能下降到大约50%。我们推测这些模块之间的区别在于前者可以在相对线性/浅/平行的方式(因此解决方法通过梯度下降相对容易发现),而没有用括号评估混合算术表达式的快捷方式,其中需要计算中间值。

这证明模型没有学习任何代数/算法操作值,而是学习相对简单的技巧来获得许多模块的良好答案。对于其他需要中间值计算的模块,如多项式求值和一般组合,也是如此。

多项式操纵性能

Transformer和递归模型之间的一个显着差异是多项式操作。Transformer在多项式展开、收集项、加法、组合、微分和提取命名系数方面做得明显更好。从理论上说,Transformer的并行顺序特性更擅长于处理多项式,其中几个系数必须同时保存在内存中,以便相互作用。

论文地址:

https://arxiv.org/pdf/1904.01557.pdf

————

编辑 ∑Pluto

来源:arXiv

封面图来源:pixabay

更多精彩:

☞泰勒定理的奇闻轶事

☞丘成桐:漫谈微分几何

☞Leibniz 如何想出微积分?(一)

☞线性相关和秩的物理意义

☞数学史上你认为最丑陋的公式是什么?

☞陶哲轩谈什么是好的数学

☞田渊栋:数学的用处(下篇)

☞你绝对没想过原来数学家这么流氓,一言不合就进行暴力证明

☞世界上最牛的五篇博士论文

☞数学中有哪些巧合让人眼前一亮?

☞算法立功!清华毕业教授美国被抢车,警察无能为力自己用“贪心算法”找回

☞学术史上的奇文:怎样用数学抓狮子

☞台大教授的反思:最难的一课 我们却没教给学生

☞麻省理工学院(MIT)研究生学习指导—— 怎样做研究生

☞分享 数学,常识和运气 ——投资大师詹姆斯·西蒙斯2010年在MIT的讲座

算法数学之美微信公众号欢迎赐稿

稿件涉及数学、物理、算法、计算机、编程等相关领域,经采用我们将奉上稿酬。

投稿邮箱:math_alg@163.com

战胜柯洁战胜不了高中生?DeepMind挑战高中数学题,完败相关推荐

  1. AI一分钟 | 柯洁战胜AI“求报道”,期待正式与围棋AI下让子棋;小米MIUI 10全面启动,主打人工智能人机交互

    一分钟AI 柯洁战胜AI求报道 称与zero下差距不会超过3子 小米MIUI 10全面启动 主打人工智能人机交互 AI医药研发公司晶泰科技完成1500万美元B轮融资,红杉领投,谷歌跟投,腾讯追加投资 ...

  2. AI一分钟|腾讯AI绝艺让二子,仍战胜柯洁;Google与腾讯达成专利交叉授权许可协议

    一分钟AI 腾讯又入医疗AI科学家,郑冶枫博士加盟腾讯优图实验室 Google与腾讯达成专利交叉授权许可协议,在科技领域为用户带来更好的产品和服务 百度研究院完成调整,新增两个实验室,三位人工智能领域 ...

  3. 如何看待master战胜柯洁等多为围棋高手?

    2017年年初AI又成功引起一轮热潮,相对于之前AlphaGo的高调,现在的master却是低调至极,无人知晓其真面目.但是不可否认的是,它又是AI的一次成功试验品,截止目前,master保持53胜一 ...

  4. 战胜柯洁李世石的AlphaGo以 0:100 败给了AlphaGo Zero

    首先,这是2017-10-19的新闻,但是现在看来还是很震惊. 近日,谷歌人工智能团队DeepMind在<Nature>上发布了他们最新的论文,新版AlphaGo--AlphaGo Zer ...

  5. 广东第一高中生_广东高中排行榜TOP10,有你的母校吗?

    原标题:广东高中排行榜TOP10,有你的母校吗? 01 华南师范大学附属中学 该校于1952年由中山学附中.广东省文理学院附中.岭南大学附中.华南牵头大学附中拆分而出. 02 深圳中学 1983年6月 ...

  6. 步步惊芯 软核处理器的内部设计分析 pdf_【深度分析】互联网巨头造“芯”现状...

    近年来,国内外互联网企业纷纷开启跨界造芯之路,包括海外的谷歌.亚马逊等企业早已开始下场自研相关芯片,国内互联网三大巨头阿里巴巴.百度.腾讯等亦在芯片领域不断试水或加码布局.对于互联网企业而言,其所依托 ...

  7. 让Facebook和Google自叹不如,新算法无人机战胜人类专家……

    最新算法无人机首次战胜人类专家驾驶员 近几年,无人机越来越多地走进人们的视线.无论是民用领域还是军用领域甚至火星勘测,无人机都已普及各行各业之中.尤其在面对抢险救灾时,与传统救援相比,无人机更有无法取 ...

  8. 阿尔法元100:0战胜哥哥阿尔法狗,背后却是让全人类惶恐的故事

    去年,AlphaGo Lee 打败了李世乭:今年,AlphaGo Master 打败了柯洁,我们已经被计算机围棋吓了两跳.但是,最近,AlphaGo 的弟弟 Alpha Zero,也即是阿尔法元,以 ...

  9. 腾讯AI让二子,柯洁还是输了

    问耕 发自 凹非寺 量子位 出品 | 公众号 QbitAI 这是围棋人机大战中的又一个第一次. 顶级职业围棋手,在让子棋中负于AI. 更明确一点说,腾讯围棋AI绝艺,让二子战胜了当今围棋第一人柯洁.而 ...

最新文章

  1. 每天一个知识点linux(八)手动创建交换分区
  2. windows下使用svn命令行
  3. python的std函数_Python numpy.nanstd函数方法的使用
  4. Android版哆啦A梦连连看游戏源码完整版
  5. map容器中删除一个元素(value)
  6. java invoke 泛型_利用Java反射机制和泛型,全自动解析json
  7. 翼虎 android,福特翼虎成首款同时兼容CarPlay和Android Auto的车型
  8. matlab对图像进行傅里叶变换_数字图像处理(一)—— 傅里叶变换
  9. ThinkPad E450 10.11 驱动HD4400的注意即解决方法
  10. 十五、陈述句_高频扩充
  11. iPhone已停用,请连接iTunes
  12. Python闭包理解
  13. 关于substance painter 导出贴图到maya步骤
  14. Linux 入门基本操作
  15. OpenNI 2.0
  16. win系统修改C盘下user/用户名
  17. Stm32 - Printf重定向(不)使用微库(Keil MDK)
  18. C++模板学习--kankan
  19. android 百度地图获取城市,Android 百度地图获取两点之间的距离和推荐的驾车路线...
  20. 银行c语言编程,c语言编程银行利率问题

热门文章

  1. 单片机wifi模块与服务器通信协议,单片机常用的几种通信协议
  2. 外设驱动库开发笔记23:AT24Cxx外部存储器驱动
  3. java 抽样_beta分布的采样或抽样(java程序)
  4. 结对和团队项目建议 - 黄金点游戏
  5. c语言查看进程模块,计算机二级考试C语言辅导:进程模块查看
  6. php factory interface,PHP设计模式之工厂方法*解读
  7. javascript 校验 非空_Javascript的表单与验证-非空验证
  8. matlab 最小二乘法拟合_Scripy实现最小二乘法与股票K线回归
  9. 武汉船舶职业技术学院计算机分数线,武汉船舶职业技术学院录取分数线2021是多少分(附历年录取分数线)...
  10. php json 循环输出html,我要用js从json文件中取值,并输出的html页面,有个问题