Learning by Fixing: Solving Math Word Problems with Weak Supervision论文阅读
Abstract
这篇文章是发表在AAAI 2021。
MWP问题一直都是当成full-supervised task来完成,把表达式当成是label,problem description当成是训练数据,而solution只是在test的时候才会用到。那么在full-supervised的情况下就会出现train-test discrepancy,训练的时候使用的是equation,测试的时候使用的是solution。而且full-supervised所需要的数据标注也需要时间。同时,一个问题会对应多种不同的解释,而如果只用一个equation那只能得到一种解释,无法使得model更进一步理解problem text。 事实上我个人认为,multi-equation应该是这个模型准确率能得到很好提升的重要原因。以上提出的三点就是论文模型的动机。本文提出的weak supervised方法能有效的解决这三个问题,1.测试集和训练集的数据训练方法和测试方法一致。2.可以产生多给solution。3.不再需要标注equation。
本文model要解决的问题和full supervised不太一致,full-supervised解决的是带有表达式的数据,problem text + equation + solution。而weak supervised只有problem text + solution,这样不需要equation表达式,而且去掉了强监督equation。没有了强监督的学习,model自然要探索多条equation的路径,这样就会出现多个解。没有equation帮助model训练,那么model也只能用solution训练,这样discrepancy也就消失了。
这篇文章的内容和周志华老师组的一篇《Bridging machine learning and logical reasoning by abductive learning》的框架方法一致,也是我目前正在做的idea,被人捷足先登了。目前这篇发在2021AAAI的组之前还有一篇《Closed Loop Neural-Symbolic Learning via Integrating Neural Perception, Grammar Parsing, and Symbolic Reasoning》也是用了这个框架,ideal基本不变,就是换了一个更大的数据而已。
Model
方法大致框架如上,事实上很多weak supervised问题都可以利用这种方式完成。首先,利用Goal-driven方法生成树,注意这里的生成是无标签生成,所以大概率生成的树是错误的,然后利用fixing maechanism机制根据solution修补这棵树,修补完成后的树当成pesudo-label训练Goal-driven模型即可。
这种方法比较适合一些有中间状态的问题,比如MWP问题中间就有一个equation作为中间状态。这个中间状态就可以利用abdutive reasoning或其他的推断方法修补。
这里的Goal-driven方法就是前面一篇a goal-driven method解决MWP的方法
https://blog.csdn.net/weixin_47474348/article/details/114365934
这篇文章主要的贡献是提出了Learning by fix的方法,简称LBF。其实就是溯因推理。
LBF
当goal-driven方法推导出一条等式之后,会去计算这个等式的solution,看看这个solution是否和label中的solution是一致的,如果不一致则需要修正,修正的结构很简单,比如上图275是正确答案,那么逆推下来即可。但是逆推是会有很多答案的,比如可能是左边的100出错,也可能是右边的100出错,所以会产生许多种答案。
所以,LBF还为每一个problem准备了一个memory buffer,存储每一个problem text通过LBF推导后产生的结果。在利用pesudo-label训练的时候,memory buffer种对于这个问题的所有pesudo-label的equation都会用于训练。也就是说,一个问题可以训练很多次。训练的loss function也是和goal driven一样。
Experiments
数据集使用的是Math23k,2w多个数据集。Goal-driven模型使用seq2seq和MAPO模型替换,而后面监督部分用LBF替换:
在无监督的情况下还能达到59.6%的准确率。
Conclusion
这篇文章使用weak-supervised的方法解决了MWP问题,并使用LBF框架提升准确率。事实上LBF框架这个团队一早就提出来了。而且整个weak-supervised的框架在17年周志华老师的团队就提出过,所有在模型上个人觉得贡献不大。能够发到AAAI主要原因应该还是第一个使用weak-supervised方法解决大佬MWP问题,并且是在Math23k这样大的数据集上还能达到59.6%的准确率。
简单来说,这篇文章的model也可以理解成通过DL识别,Reasoning修补的过程,所以也属于DL结合reasoning的模型,如果我做早点就好了。
goal-driven在full-supervised方法下能达到74%的准确率,而weak-supervised中goal-driven+lBF如果只选择memory-buffer的top 1来训练最高能到60%,所以multi-equation的训练机制到底有没有效果还需要进一步确定。如果能设计一个评估函数评定pesudo-lebel的好坏可能更好。
Learning by Fixing: Solving Math Word Problems with Weak Supervision论文阅读相关推荐
- 【P9】Point to the Expression:Solving Algebraic Word Problems using the Expression-Pointer Transformer
Point to the Expression: Solving Algebraic Word Problems using the Expression-Pointer Transformer Mo ...
- Learning from Synthetic Data for Crowd Counting in the Wild 论文阅读笔记
Learning from Synthetic Data for Crowd Counting in the Wild 论文阅读笔记 发表:CVPR 2019 人群计数任务在多变的环境,大范围的人群中 ...
- 解读数学问题自动求解领域的一篇论文A Goal-Driven Tree-Structured Neural Model for Math Word Problems以及论文的代码
论文链接 代码链接 模型大概框架: 这篇论文的思想就是:传统的seq2seq模型是序列式的从左到右生成表达式,缺少一种"目标驱动"机制,而这种目标驱动机制在人类解题过程中是常见的. ...
- Data-driven methods for solving algebra word problems论文阅读
Abstract 这是一篇综述文章,分析数据驱动模型的一些差别.但是对比的感觉不要太全面.而且对比的方法其实都挺老的了. 这篇文章把近年来的一些模型分成了两类,semantic和data-driven ...
- 云从MGN《Learning Discriminative Features with Multiple Granularities for Person Re-Identification》论文阅读
这是云从大佬在CVPR上的一篇paper.基本思想就是通过对global feature进行多粒度的切分,提取更局部的细节特征.当时在Market-1501,CUHK03,DukeMTMC-reID三 ...
- 《Learning Discriminative Features with Multiple Granularities for Person Re-Identification》论文阅读之MGN
刷新三数据集纪录的跨镜追踪(行人再识别-ReID)技术 云从科技在跨镜追踪(行人再识别)技术(ReID)上获取重大突破.同时在Market-1501,CUHK03,DukeMTMC-reID三个数据集 ...
- Learning Disentangled Representations for Timbre and Pitch in Music Audio论文阅读
摘要 本文提出两个音乐的音色和音高特征的有监督提取网络,主要是利用encoder/decoder网络实现,但是对于音高信息的提取还额外添加了跳接连接. 一.介绍 主要是关于提取音色和音高的特征信息以及 ...
- 活体检测论文研读三:Learning Deep Models for Face Anti-Spoofing: Binary or Auxiliary Supervision
Learning Deep Models for Face Anti-Spoofing: Binary or Auxiliary Supervision 论文简介 一.指出先前的深度学习方法将人脸反欺 ...
- [人脸活体检测] 论文: Learning Deep Models for Face Anti-Spoofing: Binary or Auxiliary Supervision
Learning Deep Models for Face Anti-Spoofing: Binary or Auxiliary Supervision 论文简介 与人脸生理相关的rppG信号被研究者 ...
最新文章
- R语言常用sys函数汇总:sys.chmod、Sys.Date、Sys.time、Sys.getenv、Sys.getlocale、sys.getpid、sys.glob、sys.info等
- Java转型(向上或向下转型)
- php redis 搜索,PHP+Redis有序集合(zset)实现博客园阅读排行榜功能
- php-fpm 进程在云服务器cpu分配不均匀
- 【生物】基因编辑研究方向全面盘点,一文带你了解基因魔剪的前世今生
- python入门——P40类和对象:一些相关的BIF
- Hbase rowkey 设计原则
- 【图频处理】基于matlab GUI界面环图像处理与音乐播放系统【含Matlab源码 185期】
- php session auto_start,PHP出现 Warning: session_start()的解决方法
- 某航研究生教务系统开题报告或中期检查表报表无法显示无法导出问题
- 在emwin中显示字库芯片GT23L24M0140的字模
- 对于设计模式中七大原则的理解
- 第07课:项目实战——自己动手写一个神经网络模型
- 连接GitHub提示远程主机关闭连接
- stream流的常用方法
- 使用navicat进行库表数据拷贝
- 台式计算机能装蓝牙吗,台式电脑没有蓝牙功能怎么安装
- emui11是鸿蒙系统吗,搭载鸿蒙内核的EMUI11.1机型曝光了,快看有你用的吗
- 智能电话机器人(AI语音机器人)是什么
- 将HQL语句转为sql语句