来源:智能研究院

高数考不好,不知道是多少人的噩梦。

如果说你高数考得还不如AI好,是不是就更难以接受了?

没错,来自OpenAI的Codex已经在MIT的7门高数课程题目中正确率达到81.1%,妥妥的MIT本科生水平。

课程范围从初级微积分到微分方程、概率论、线性代数都有,题目形式除了计算、甚至还有画图。

这件事最近还登上了微博热搜。

▲“仅”得81分,对AI的期待也太高了吧

现在,谷歌那边又传来了最新大消息:

不止数学,我们的AI甚至在整个理工科上,都已经拿到最高分啦!

看来在培养“AI做题家”这件事上,科技巨头们已经卷出了新高度。

谷歌这个最新AI做题家,参加了四门考试。

数学竞赛考试MATH,以往只有三届IMO金牌得主才拿过90分,普通的计算机博士甚至只能拿到40分左右。

至于别的AI做题家们,以前最好成绩只有6.9分……

但这一次,谷歌新AI却刷到了50分,比计算机博士还高。

综合考试MMLU-STEM,内含数理化生、电子工程和计算机科学,题目难度达到高中甚至大学水平。

这一次,谷歌AI“满血版”,也都拿到了做题家中的最高分,直接将分数拉高了20分左右。

小学数学题GSM8k,直接将成绩拉升到78分,相比之下GPT-3还没及格(仅55分)。

就连MIT本科和研究生学的固体化学、天文学、微分方程和狭义相对论等课程,谷歌新AI也能在200多道题中,答出将近三分之一。

最重要的是,与OpenAI凭借“编程技巧”取得数学高分的方法不同,谷歌AI这一次,走的可是“像人一样思考”的路子——

它像一个文科生一样只背书不做题,却掌握了更好的理工科解题技巧。

值得一提的是,论文一作Lewkowycz还分享了一个论文中没写到的亮点:

我们的模型参加了今年的波兰数学高考,成绩比全国平均分还要高

看到这里,有的家长已经坐不住了。

如果告诉我女儿这件事,我怕她用AI做作业。但如果不告诉她,就没有让她对未来做好准备!

在业内人士看来,只靠语言模型,不对算数、逻辑和代数做硬编码达到这种水平,是这项研究最惊艳的地方。

那么,这是怎么做到的?

AI狂读arXiv上200万篇论文

新模型Minerva,基于Pathway架构下的通用语言模型PaLM改造而来。

分别在80亿、600亿和5400亿参数PaLM模型的基础上做进一步训练。

Minerva做题与Codex的思路完全不同。

Codex的方法是把每道数学题改写成编程题,再靠写代码来解决。

而Minerva则是狂读论文,硬生生按理解自然语言的方式去理解数学符号。

在PaLM的基础上继续训练,新增的数据集有三部分:

主要有arXiv上收集的200万篇学术论文,60GB带LaTeX公式的网页,以及一小部分在PaLM训练阶段就用到过的文本。

通常的NLP数据清洗过程会把符号都删掉只保留纯文字,导致公式不完整,比如爱因斯坦著名的质能方程只剩下了Emc2。

但谷歌这次把公式都保留,和纯文本一样走一遍Transformer的训练程序,让AI像理解语言一样去理解符号。

与之前的语言模型相比,这是Minerva在数理问题上表现更好的原因之一。

但与专门做数学题的AI相比,Minerva的训练中没有显式的底层数学结构,这带来一个缺点和一个优点。

缺点,是可能出现AI用错误的步骤得到正确答案的情况。

优点,是可以适应不同学科,即使有些问题无法用正规的数学语言表达出来,也可以结合自然语言理解能力解出来。

到了AI的推理阶段,Minerva还结合了多个最近谷歌开发的新技术。

先是Chain of Thought思维链路提示,今年一月由谷歌大脑团队提出。

具体来说就是在提问的同时给一个分步骤回答的示例来引导。AI在做题时就可以采用类似的思考过程,正确回答本来会答错的题目。

再有是谷歌和MIT合作开发的Scrathpad草稿纸方法,让AI把分步计算的中间结果临时存储起来。

最后还有Majority Voting多数表决方法,也是今年3月才发表的。

让AI多次回答同一个题目,选择答案中出现频率最高的。

所有这些技巧全用上以后,5400亿参数的Minerva在各种测试集中达到SOTA。

甚至80亿参数版的Minerva,在竞赛级数学题和MIT公开课问题中,也能达到GPT-3最新更新的davinci-002版本水平。

说了这么多,Minerva具体都能做出哪些题目?

对此谷歌也开放出了样例集,一起来看一下。

数理化生全能,连机器学习都会

数学上,Minerva可以像人类一样按步骤计算数值,而不是直接暴力求解。

对于应用题,可以自己列出方程式并做简化。

甚至还可以推导证明。

物理上,Minerva可以求中性氮基态(Z = 7)电子的总自旋量子数这样的大学水平题目。

生物和化学上,Minerva凭借语言理解能力也可以做各种选择题。

以下哪种点突变形式对DNA序列形成的蛋白质没有负面影响?

以下哪种是放射性元素?

以及天文学:为什么地球拥有很强的磁场?

在机器学习方面,它通过解释“分布外样本检测”的具体含义,从而正确了给出这个名词的另一种说法。

……

不过,Minerva有时也会犯一些低级错误,比如把等式两边的√给消了。

除此之外,Minerva会出现的推理过程错误但结果对的“假阳性”情况,比如下面这种,有8%的可能性。

经过分析之后,团队发现主要的错误形式来自计算错误和推理错误,只有小部分来自题意理解错误和在步骤中使用了错误的事实等其他情况。

其中计算错误可以轻易通过访问外部计算器或Python解释器解决,但其他种类的错误因为神经网络规模太大就不太好调整了。

总的来看,Minerva的表现让很多人感到惊艳,纷纷在评论区求API(可惜谷歌目前并没有公开计划)。

有的网友想到,加上前几日让GPT-3解题正确率暴涨61%的“哄一哄”大法,它的准确率或许还可以再提高?

不过作者的回应是,哄一哄方法属于零样本学习,再强恐怕也比不上带4个例子的少样本学习。

还有网友提出,既然它可以做题,那么能不能反过来出题?

事实上用AI给大学生出题这件事,MIT已经联合OpenAI在做了。

他们把人类出的题和AI出的题混在一起,找学生来做问卷调查,大家也很难分清一道题是不是AI出的。

总之现在的情况,除了搞AI的在忙着读这篇论文以外。

学生们盼着有一天能用AI做作业。

老师们也盼着有一天能用AI出卷子。

论文地址:
https://storage.googleapis.com/minerva-paper/minerva_paper.pdf

Demo地址:
https://minerva-demo.github.io/

相关论文:
Chain of Thought
https://arxiv.org/abs/2201.11903
Scrathpads
https://arxiv.org/abs/2112.00114
Majority Voting
https://arxiv.org/abs/2203.11171

未来智能实验室的主要工作包括:建立AI智能系统智商评测体系,开展世界人工智能智商评测;开展互联网(城市)大脑研究计划,构建互联网(城市)大脑技术和企业图谱,为提升企业,行业与城市的智能水平服务。每日推荐范围未来科技发展趋势的学习型文章。目前线上平台已收藏上千篇精华前沿科技文章和报告。

  如果您对实验室的研究感兴趣,欢迎加入未来智能实验室线上平台。扫描以下二维码或点击本文左下角“阅读原文”

【前沿技术】AI终于攻陷了数学领域!高数考试超过普通博士??相关推荐

  1. AI终于攻陷了数学领域!高数考试超过普通博士??

    文 | 梦晨 丰色 发自 凹非寺 源 | 量子位 高数考不好,不知道是多少人的噩梦. 如果说你高数考得还不如AI好,是不是就更难以接受了? 没错,来自OpenAI的Codex已经在MIT的7门高数课程 ...

  2. 计算机网络技术学数学难吗,儿子学计算机科学与技术专业,今年大一,感觉高数很难,怎么办?...

    看了这个问题,隔着电脑屏幕都能感觉到这位家长深深的忧虑,要是在高中,这位家长可能就直接给孩子安排补习班了,但是这是在大学,有点鞭长莫及!学的计算机科学与技术专业,现在才大一就觉得高数特别难,以后更难的 ...

  3. 知能行考研数学的高数部分怎么样?大一可以用吗?

    目录 方法一等价替换 方法二泰勒公式 方法三洛必达法则 一.值得一看的网课 二.带着问题听课 三.如何调整在学习高数时的心态 四.总结 我上大学的时候,面对这两部分知识点,也学得很吃力,尤其是微积分 ...

  4. AI做题家卷疯了!高数考试正确率81%,竞赛题成绩超过计算机博士

    梦晨 丰色 发自 凹非寺 量子位 | 公众号 QbitAI 高数考不好,不知道是多少人的噩梦. 如果说你高数考得还不如AI好,是不是就更难以接受了? 没错,来自OpenAI的Codex已经在MIT的7 ...

  5. 【20考研】数学:高数复习的先后顺序

    在考研数学中,高数的复习难度是比较大的,所以很多考研er都已经早早开始高数的复习了.但是具体怎么复习,该先复习什么呢?下面跟小编一起来看看高数复习的先后顺序. 按照考试大纲划分复习范围 在熟悉大纲的基 ...

  6. 植树节快乐|用小学数学到高数的知识思考种树,你能种到哪一步?

    简介:今天是植树节,为了给大家的生活增加 一抹富有生机的绿色

  7. 分段概率密度矩估计_考研数学:高数、线代、概率3科目知识框架梳理

    该楼层疑似违规已被系统折叠 隐藏此楼查看此楼 首先要确保常考题型,常考知识点非常熟练.下面从高等数学.线性代数.概率统计三个模块进行阐述. 高等数学部分 1.函数的极 限;数列的极 限;无穷小及阶的问 ...

  8. 【考研数学一·高数(5)】一元函数积分学

    1. ∫ a x f ( t ) d t , f ( x ) , f ′ ( x ) \int_a^xf(t)\mathrm{d}t,f(x),f'(x) ∫ax​f(t)dt,f(x),f′(x)的 ...

  9. 想在AI前沿技术领域工作?7家公司能让你梦想成真

    想在AI前沿技术领域工作?7家公司能让你梦想成真 原文: 7 surprising companies where you can work on cutting-edge AI technology ...

最新文章

  1. Depth Bias
  2. json对象(json-lib)转换成list-map集合
  3. mysql常见关键字
  4. ARM学习方法大杂烩,高手经验之谈,内容完全来自互联网
  5. WPF之DataGrid
  6. MYSQL用存储过程创建百万级测试数据表
  7. php swoole hyperf,【php】Hyperf为什么要关闭Swoole协程短名称
  8. sed for windows 双引号内部内容的替换
  9. REPERTOIRE: CD
  10. 浅谈微服务下异常处理
  11. 用按键精灵2014怎么开发后台自动喊话的游戏脚本
  12. 调试 MQL5 程序
  13. php 虚拟ip 刷流量,浅析网站刷流量的利与弊
  14. Android通过百度api地址经纬度获取文字位置信息
  15. Visual C++ 2010 第4章 数组、字符串和指针
  16. 极路由器1S,HC5661A刷breed再刷老毛子华硕
  17. web调用钉钉待办审批
  18. Airtest  入门
  19. A system tap script to detect UDP beacons
  20. PostMan接口参数化、接口返回值传递

热门文章

  1. java导出word,红色的单元格背景色显示为黑色
  2. 笔记本独显怎么用配置cuda环境
  3. php json 遍历 keys,详解javascript遍历json对象的key和任意js对象属性的示例代码(图)...
  4. vue日期选择组件_一个Vue组件,为波斯开发人员提供日期选择器
  5. python在excel中插入折线图_python如何删除excel中已经存在的折线图?
  6. Photoshop图象切片保存为网页HTML(DIV+CSS布局)的方法
  7. 传奇4,掉线重连,无法连接服务器等情况解决方案
  8. Balloon Comes! (一道水题竟如此低的通过率)
  9. Cocos2d-x添加IOS手机震动
  10. 【python】类继承中super的用法