AI做题水平已超过CS博士？

高数考不好，不知道是多少人的噩梦。

如果说你高数考得还不如AI好，是不是就更难以接受了？

没错，来自OpenAI的Codex已经在MIT的7门高数课程题目中正确率达到81.1%，妥妥的MIT本科生水平。

课程范围从初级微积分到微分方程、概率论、线性代数都有，题目形式除了计算、甚至还有画图。

这件事最近还登上了微博热搜。

△“仅”得81分，对AI的期待也太高了吧

现在，谷歌那边又传来了最新大消息：

不止数学，我们的AI甚至在整个理工科上，都已经拿到最高分啦！

看来在培养“AI做题家”这件事上，科技巨头们已经卷出了新高度。

谷歌这个最新AI做题家，参加了四门考试。

数学竞赛考试MATH，以往只有三届IMO金牌得主才拿过90分，普通的计算机博士甚至只能拿到40分左右。

至于别的AI做题家们，以前最好成绩只有6.9分……

但这一次，谷歌新AI却刷到了50分，比计算机博士还高。

综合考试MMLU-STEM，内含数理化生、电子工程和计算机科学，题目难度达到高中甚至大学水平。

这一次，谷歌AI“满血版”，也都拿到了做题家中的最高分，直接将分数拉高了20分左右。

小学数学题GSM8k，直接将成绩拉升到78分，相比之下GPT-3还没及格（仅55分）。

就连MIT本科和研究生学的固体化学、天文学、微分方程和狭义相对论等课程，谷歌新AI也能在200多道题中，答出将近三分之一。

最重要的是，与OpenAI凭借“编程技巧”取得数学高分的方法不同，谷歌AI这一次，走的可是“像人一样思考”的路子——

它像一个文科生一样只背书不做题，却掌握了更好的理工科解题技巧。

值得一提的是，论文一作Lewkowycz还分享了一个论文中没写到的亮点：

我们的模型参加了今年的波兰数学高考，成绩比全国平均分还要高。

看到这里，有的家长已经坐不住了。

如果告诉我女儿这件事，我怕她用AI做作业。但如果不告诉她，就没有让她对未来做好准备！

在业内人士看来，只靠语言模型，不对算数、逻辑和代数做硬编码达到这种水平，是这项研究最惊艳的地方。

那么，这是怎么做到的？

AI狂读arXiv上200万篇论文

新模型Minerva，基于Pathway架构下的通用语言模型PaLM改造而来。

分别在80亿、600亿和5400亿参数PaLM模型的基础上做进一步训练。

Minerva做题与Codex的思路完全不同。

Codex的方法是把每道数学题改写成编程题，再靠写代码来解决。

而Minerva则是狂读论文，硬生生按理解自然语言的方式去理解数学符号。

在PaLM的基础上继续训练，新增的数据集有三部分：

主要有arXiv上收集的200万篇学术论文，60GB带LaTeX公式的网页，以及一小部分在PaLM训练阶段就用到过的文本。

通常的NLP数据清洗过程会把符号都删掉只保留纯文字，导致公式不完整，比如爱因斯坦著名的质能方程只剩下了Emc2。

但谷歌这次把公式都保留，和纯文本一样走一遍Transformer的训练程序，让AI像理解语言一样去理解符号。

与之前的语言模型相比，这是Minerva在数理问题上表现更好的原因之一。

但与专门做数学题的AI相比，Minerva的训练中没有显式的底层数学结构，这带来一个缺点和一个优点。

缺点，是可能出现AI用错误的步骤得到正确答案的情况。

优点，是可以适应不同学科，即使有些问题无法用正规的数学语言表达出来，也可以结合自然语言理解能力解出来。

到了AI的推理阶段，Minerva还结合了多个最近谷歌开发的新技术。

先是Chain of Thought思维链路提示，今年一月由谷歌大脑团队提出。

具体来说就是在提问的同时给一个分步骤回答的示例来引导。AI在做题时就可以采用类似的思考过程，正确回答本来会答错的题目。

再有是谷歌和MIT合作开发的Scrathpad草稿纸方法，让AI把分步计算的中间结果临时存储起来。

最后还有Majority Voting多数表决方法，也是今年3月才发表的。

让AI多次回答同一个题目，选择答案中出现频率最高的。

所有这些技巧全用上以后，5400亿参数的Minerva在各种测试集中达到SOTA。

甚至80亿参数版的Minerva，在竞赛级数学题和MIT公开课问题中，也能达到GPT-3最新更新的davinci-002版本水平。

说了这么多，Minerva具体都能做出哪些题目？

对此谷歌也开放出了样例集，一起来看一下。

数理化生全能，连机器学习都会

数学上，Minerva可以像人类一样按步骤计算数值，而不是直接暴力求解。

对于应用题，可以自己列出方程式并做简化。

甚至还可以推导证明。

物理上，Minerva可以求中性氮基态（Z = 7）电子的总自旋量子数这样的大学水平题目。

生物和化学上，Minerva凭借语言理解能力也可以做各种选择题。

以下哪种点突变形式对DNA序列形成的蛋白质没有负面影响？

以下哪种是放射性元素？

以及天文学：为什么地球拥有很强的磁场？

在机器学习方面，它通过解释“分布外样本检测”的具体含义，从而正确了给出这个名词的另一种说法。

……

不过，Minerva有时也会犯一些低级错误，比如把等式两边的√给消了。

除此之外，Minerva会出现的推理过程错误但结果对的“假阳性”情况，比如下面这种，有8%的可能性。

经过分析之后，团队发现主要的错误形式来自计算错误和推理错误，只有小部分来自题意理解错误和在步骤中使用了错误的事实等其他情况。

其中计算错误可以轻易通过访问外部计算器或Python解释器解决，但其他种类的错误因为神经网络规模太大就不太好调整了。

总的来看，Minerva的表现让很多人感到惊艳，纷纷在评论区求API（可惜谷歌目前并没有公开计划）。

有的网友想到，加上前几日让GPT-3解题正确率暴涨61%的“哄一哄”大法，它的准确率或许还可以再提高？

不过作者的回应是，哄一哄方法属于零样本学习，再强恐怕也比不上带4个例子的少样本学习。

还有网友提出，既然它可以做题，那么能不能反过来出题？

事实上用AI给大学生出题这件事，MIT已经联合OpenAI在做了。

他们把人类出的题和AI出的题混在一起，找学生来做问卷调查，大家也很难分清一道题是不是AI出的。

总之现在的情况，除了搞AI的在忙着读这篇论文以外。

学生们盼着有一天能用AI做作业。

老师们也盼着有一天能用AI出卷子。

更多精彩内容请关注 微信公众号

AI做题水平已超过CS博士？相关推荐

AI做题家卷疯了！高数考试正确率81%，竞赛题成绩超过计算机博士
梦晨丰色发自凹非寺量子位 | 公众号 QbitAI 高数考不好,不知道是多少人的噩梦. 如果说你高数考得还不如AI好,是不是就更难以接受了? 没错,来自OpenAI的Codex已经在MIT的7 ...

【前沿技术】AI终于攻陷了数学领域！高数考试超过普通博士？？
来源:智能研究院高数考不好,不知道是多少人的噩梦. 如果说你高数考得还不如AI好,是不是就更难以接受了? 没错,来自OpenAI的Codex已经在MIT的7门高数课程题目中正确率达到81.1%,妥妥 ...

AI终于攻陷了数学领域！高数考试超过普通博士？？
文 | 梦晨丰色发自凹非寺源 | 量子位高数考不好,不知道是多少人的噩梦. 如果说你高数考得还不如AI好,是不是就更难以接受了? 没错,来自OpenAI的Codex已经在MIT的7门高数课程 ...

AI学高数达到MIT本科水平，学了微积分线性代数概率论等6门课，不光能做题还能出题...
梦晨发自凹非寺量子位报道 | 公众号 QbitAI 让语言模型做数学题,有多难? 强如GPT-3,在9-12岁的小学数学上,第一次才考20多分. 去年底GPT-3用上新方法努力了很久终于拿到5 ...

已知分布函数求概率密度例题_初二一次函数知识点及做题思路解析，一次函数不好的同学看一看...
初二从平行四边形部分过渡到一次函数部分.很多同学明显感觉一次函数部分比前面平行四边形几何部分简单了一些.前边平行四边形几何部分没有学好的同学,这一部分只要好好学,期末还是能考一个不错的分数.虽然,感觉 ...

GPT-4王者加冕！读图做题性能炸天，凭自己就能考上斯坦福
[导读]OpenAI的GPT-4在万众瞩目中闪亮登场,多模态功能太炸裂,简直要闪瞎人类的双眼.李飞飞高徒.斯坦福博士Jim Fan表示,GPT4凭借如此强大的推理能力,已经可以自己考上斯坦福了! 果然 ...

Regional 做题记录 (50/50)
写在前面博主深感自己太弱了QAQ 于是有了一个刷水的想法,Regional的题目还是有很多考查思维的题目,所以这次是乱做50道思考题,可能会顺带做一些水题,这些题的简要题解会写到这篇博文里面,希望能 ...

DeepMind新成果：让AI做了200万道数学题，结果堪忧
在这个春光明媚的周末,一部分成年人却不得不在人间历劫--辅导孩子写作业!其中,又以数学这门学科的杀伤力最为强大. 为了挽救在"抛家弃子"边缘疯狂试探的家长们,不少K12教育平台也开 ...

「CodePlus 2017 11 月赛」可做题
题目描述 qmqmqm 希望给 sublinekelzrip 出一道可做题.于是他想到了这么一道题目:给一个长度为n的非负整数序列ai,你需要计算其异或前缀和bi,满足条件b1=a1,bi=b ...

最新文章

在WinXP上通过Virtual PC安装WinCE

设计模式-Observer模式

hadoop streaming部分问题总结

数据结构与算法 | 堆

下图为双总线结构机器的数据通路_海康机器人为物流加码：进击吧，双11新“打工人”...

NLayerAppV3--.net Core2实现的DDD分层架构

jquery 搜索框自动提示

matlab风应力工具包,MSATSI：结合可靠经典方法的新简化用户处理及可视化工具的应力反演MATLAB软件包.pdf...

对话斯坦福商学院教授：颠覆大公司的不是技术，是商业模式

对于listview条目item上checkbook点击监听回调更新listview外UI以及对listview外checkbook点击监听itemUI变化

java邮件抄送_JAVA实现邮件抄送，密送，多个附件发送

2018携程校招笔试第二道编程题

误入 GitHub 游戏区，意外地收获颇丰

如何重装oracle数据库,oracle数据库的重装

2018秋季寒假作业2-记叙在人生路上对我影响最大的三位老师

dnf吸怪源码c语言,发DNF源码了

由三维面部先验指导的面部超级分辨率（读书笔记）

首届“兴智杯”产业赛收官，文心大模型助推产业创新

roszhong指定rviz的点启动_Rviz 实现 pannel 插件

Unreal4下载安装教程

热门文章

5G赋能智慧楼宇会后感

ipad手写笔必须用原装吗？适用于ipad的手写笔推荐

docker compose安装redis集群、集群扩容、集群收缩

华为nova8pro什么时候更新鸿蒙,可升级到鸿蒙，跑分65万+120Hz！华为又一真旗舰Nova8Pro来了...

南通SEO：单页的SEO元素

[老老实实学WCF] 第三篇在IIS中寄存服务

linux进程tsm是什么,Linux 下安装和配置TSM 7.1

使用VB.NET控制台应用程序实现一个简单的计算器

Trunk的通信原理

c51单片机秒表程序c语言,利用51单片机制作秒表的详细过程