干货!结构化知识的统一建模和多任务学习
点击蓝字
关注我们
AI TIME欢迎每一位AI爱好者的加入!
基于结构化知识的任务(SKG)利用结构化知识来完成用户请求,例如对数据库的语义解析和对知识库的问答。由于SKG任务的输入和输出是异构的,它们在历史上被不同的社区分开研究,这限制了对SKG的系统和兼容研究。在本文中,我们通过提出UnifiedSKG框架来克服这一限制,该框架将21个SKG 任务统一为文本到文本格式,旨在促进系统的 SKG 研究,而不是仅限于单个任务,领域,或数据集。我们展示了像 T5 这样的大型语言模型,在必要时进行简单的修改,在所有 21个 任务上实现了最先进的性能。UnifiedSKG有助于研究多任务、零样本和少样本学习。我们证明了使用 UnifiedSKG进行多任务前缀调整可以提高大多数任务的性能,并展示 T0、GPT-3 和 Codex 在 SKG 的零样本和少样本学习中的不足。UnifiedSKG还支持对跨 SKG 任务的结构化知识编码变体进行一系列受控实验。我们发现 T5 对结构化知识编码变化的敏感性因任务而异。UnifiedSKG很容易扩展到更多任务,并将开源在https://github.com/hkunlp/unifiedskg
本期AI TIME PhD直播间,我们邀请到香港大学计算机系助理教授——余涛,为我们带来报告分享《结构化知识的统一建模和多任务学习》。
余涛:
香港大学计算机系助理教授,博士毕业于耶鲁大学,目前在华盛顿大学自然语言处理实验室访问。他的研究兴趣在自然语言处理(NLP)。具体研究方向和兴趣包括但不限于对话问答系统,语义解析,自然语言界面,和人机交互。
基于结构化知识的任务(SKG)利用结构化知识来完成用户请求,例如对数据库的语义解析和对知识库的问答。由于SKG任务的输入和输出是异构的,它们在历史上被不同的社区分开研究,这限制了对SKG的系统和兼容研究。
我们通过提出UnifiedSKG框架来克服这一限制,该框架将21个SKG任务统一为文本到文本格式,旨在促进系统的SKG研究,而不是仅限于单个任务、领域或数据集。我们展d示了像T5这样的大型语言模型,在必要时进行简单的修改,在所有21个任务上实现了最先进的性能。UnifiedSKG有利于研究多任务、零样本和少样本学习。我们证明了使用UnifiedSKG进行多任务前缀调整可以提高大多数任务的性能,并展示T0、GPT-3和Codex在SKG的零样本和少样本学习中的不足。UnifiedSKG还支持对跨SKG任务的结构化知识编码变体进行一系列受控实验。我们发现T5对结构化知识编码变化的敏感性因任务而异。UnifiedSKG很容易扩展到更多任务。
在互联网时代,我们日常都会接触到大量的数据。这些数据可以分为非结构化数据和结构化数据。非结构化数据如图像、文本和视频。结构化数据指的是数据库、知识图谱存储的数据,这些数据都存在于一定的结构化格式。
基于结构化知识数据的任务可以统称为 Structured Knowledge Grounding (SKG)。这些任务的共同性都是基于这些结构化知识进行推理查询来回答或满足用户的自然语言问题和请求,比如语义解析 Semantic Parsing是其中经典的一个SKG问题:用户会问一个关于database或knowledge graph的问题,这个任务就是把将自然语言问题转化为逻辑形式的结构(机器可以懂的语言)。如左图中,便是把问题转化为SPARQL的语句。之后便可以在knowledge graph上执行而得到问题的答案。
这些不同的任务都是在不同的NLP Community里学习的,而且把他们定义成不同的任务。如下图,彼此之间都是分开进行学习然后产生不同的task model。
随后根据方向发展也会产生新的任务,新的模型。
但也因为这个特点,各structure knowledge多元化,input和output不一样,阻碍了彼此之间的knowledge sharing。
因此目标是进行统一,做打破彼此任务之间的边界的第一次简单尝试,使得这些可以在同一个UnifiedSKG framework下进行学习并在这些任务上取得不错的结果。
UnifiedSKG将SKG的数据集、模型、代码、实验和评估指标标准化到一个单一的框架中,却拥有不同的input和output。这个framework中含有21个不同task
Motivation
1)希望这个framework可以促进不同SKG task之间的knowledge sharing,尤其是在针对同一knowledge。
2)SKG任务的标注成本较高,数据量通常较小
3)一个模型可以处理多个请求,节省空间、维护和计算成本。
4)适应和分析的统一框架
更好地利用预先训练的语言模型(PLMs)。
更可控,更公平的分析比较。
在SKG中促进更广泛和更有力的研究
接下来我们来看下UnifiedSKG framework也可以在这些SKG Task上取得非常好的成绩。
首先我们来针对这个 text to text model框架去unified这些input和output。我们采用t5—sequence to sequence model。对于这些input,我们有这些structured knowledge,总体上看有3个不同的input
User request:用户的问题,string形式
Linearized:
比如把表格或者knowledge graph转化成flattened string。
上述这三个input作为t5的input sequence
对于output:
通过这些形式,我们便可以去unified这些task的input与output。然而问题产生了,这样的方式是否可以让t5 达到比较好的performance,在针对这么多的task情况下。
结论显示,我们这种general且简单的framework是可以在全部21个task上达到state-of-the-art performance的。我们去设置不同size的t5——base、large、3billion。在绝大多数task上都不用做modification可以达到state-of-the-art performance。
为了进行更好的对比,所以在不同size的t5——base、large、3billion都运行了一下。
结构化知识的统一建模和多任务学习实现了知识共享和跨任务泛化,极大地提高了整体性能。
从上图中,是t5-base和t5-large在每个SKG task的training数据上单独的跑一个t5 所得到的分数。
对于MT-P:Multi-task prefix tuning,分两步
1)对t5-large加一个比较小的perfix,这个prefix对所有的task都是shared prefix。然后我们将这21个task的training数据合成一个training数据,到converge聚集之后。
2)针对每个task都有个prefix,用shared prefix去initialize每个task的prefix,然后在每一个task的数据上继续finetune这些task-specific的prefix。
最近T0、GPT3, Codex这些model使得zero-shot和few-shot这些概念比较火。
由于SKG task相对更复杂一些,所以在zero-shot和few-shot的learning上也会比较复杂,很少在SKG task做test
我们选取了一些比较有代表性的task来做zero-shot和Few-shot learning初始的study,我们看下他们各自的performance
我们可以在统一的unified framework做一些可控的实验,使我们能发现对SKG task 有重要性的structured knowledge encoding的方法。如下初始实验,针对structured knowledge encoding,有两个主要的input——User request和structured knowledge
UnifiedSKG进一步实现了一系列关于SKG任务中结构化知识编码选择重要性的控制实验。
T5对结构化知识编码的变化很敏感,并且在不同的任务中,这种敏感性有所不同。比如下表中,在structured knowledge里面改变order,table中不同的column顺序去test,发现performance下降很多。说明这些model对order还是比较敏感
之后如何训练 Unified framework 去产生一些general robust的Structured Knowledge Encoding 方法,也是个重要研究方向。
之后我们来看下error Analysis,随着t5 size增加,error会越来越少,但是T5-3B仍然可能产生无效或无意义的输出。
Future Directions 未来方向预测
训练 Unified SKG framework 去产生一些general robust的Structured Knowledge Encoding 方法(linearization? input limits?)
针对一些Unified SKG task来做zero-shot和Few-shot learning初始的study
用unified SKG task进行多任务学习
General pretraining methods 使得unified SKG task在这些task上取得更好的performance
Extending and benchmarking可以用realistic SKG tasks去包括更多的realistic SKG tasks
提
醒
论文题目:
UnifiedSKG: Unifying and Multitasking Structured Knowledge Grounding withText-to-Text Language Models
点击文末“阅读原文”,即可观看本场回放
整理:林 则
审核:余 涛
往期精彩文章推荐
记得关注我们呀!每天都有新知识!
关于AI TIME
AI TIME源起于2019年,旨在发扬科学思辨精神,邀请各界人士对人工智能理论、算法和场景应用的本质问题进行探索,加强思想碰撞,链接全球AI学者、行业专家和爱好者,希望以辩论的形式,探讨人工智能和人类未来之间的矛盾,探索人工智能领域的未来。
迄今为止,AI TIME已经邀请了550多位海内外讲者,举办了逾300场活动,超120万人次观看。
我知道你
在看
哦
~
点击 阅读原文 查看回放!
干货!结构化知识的统一建模和多任务学习相关推荐
- 今晚7:30 | 结构化知识的统一建模和多任务学习
点击蓝字 关注我们 AI TIME欢迎每一位AI爱好者的加入! 1月13日晚 7:30-8:30 AI TIME 特别邀请香港大学计算机系助理教授--余涛,给大家带来分享:<结构化知识的统一建模 ...
- 《预训练周刊》第47期:屏蔽自编码器、结构化知识注入预训练、ERNIE 3.0
No.47 智源社区 预训练组 预 训 练 研究 观点 资源 活动 周刊订阅 告诉大家一个好消息,<预训练周刊>已经开启"订阅功能",以后我们会向您自动推送最新版的&l ...
- ACL 2021 | 结构化知识蒸馏方法
本文介绍了上海科技大学屠可伟课题组与阿里巴巴达摩院的一项合作研究,提出了在结构预测问题上一种较为通用的结构化知识蒸馏方法.该论文已被 ACL 2021 接受为长文. 论文标题: Structural ...
- CVPR 2019 | 微软亚研院提出用于语义分割的结构化知识蒸馏
点击我爱计算机视觉标星,更快获取CVML新技术 今天跟大家分享一篇关于语义分割的论文,刚刚上传到arXiv的CVPR 2019接收论文<Structured Knowledge Distilla ...
- 论文浅尝 | ERNIE-ViL:从场景图中获取结构化知识来学习视觉语言联合表示
笔记整理:朱珈徵,天津大学硕士 链接:https://www.aaai.org/AAAI21Papers/AAAI-6208.YuFei.pdf 动机 现有的视觉语言预训练方法试图通过在大的图像文本数 ...
- PointDistiller:面向高效紧凑3D检测的结构化知识蒸馏
点击上方"计算机视觉工坊",选择"星标" 干货第一时间送达 作者丨吃饭机@知乎 来源丨https://zhuanlan.zhihu.com/p/20092418 ...
- 微软亚研院提出用于语义分割的结构化知识蒸馏 | CVPR 2019
作者 | CV君 来源 | 我爱计算机视觉 今天跟大家分享一篇关于语义分割的论文,刚刚上传到arXiv的CVPR 2019接收论文<Structured Knowledge Distillati ...
- 【深度学习】协同优化器和结构化知识蒸馏
[深度学习]协同优化器和结构化知识蒸馏 文章目录 1 概述 2 什么是RAdam(Rectified Adam) 3 Lookahead - 探索损失面的伙伴系统=更快,更稳定的探索和收敛. 4 Ra ...
- 计算机结构化思维学计算机,基于结构化知识的学习/思考机器和学习/思考方法以及计算机系统和信息生成方法...
主权项: 1.一种学习/思考机器,具备由网罗地收集信息的装置:\r\r\r\r\n 对收集到的信息的进行解析,并按照多个规则抽出语义关系的装\r\r\r\r\n置:\r\r\r\r\n 由将语义内容作 ...
最新文章
- php源码安全加密之PHP混淆算法.
- 谷歌首提Android11,谷歌官方首次提及Android 11系统 谷歌推动安卓10.0系统下载
- 定时任务重启后执行策略_C语言操作时间函数time.ctime,实现定时执行某个任务小例子...
- Weblogic的classpath设置
- 大专学计算机应用难吗,上了两年技校,专业是计算机应用,什么也没学到。现在想在去上个大专。学什么专业好呢。?...
- 网页错误排查 如何?
- cisco学习笔记(2)
- leetcode之删除排序数组中的重复项
- VS2015打开cshtml视图页文件报错 未将对象引用设置为实例 解决办法
- 安徽省c语言程序设计省二题库,C语言程序设计题库二.pdf
- 农历和阳历的之间的转换
- 接口文档系统 - Yapi
- python中ttk_ttk/Python中的按钮图像问题
- 【推荐算法论文】矩阵分解算法
- 能领取拼多多优惠券的微信小程序
- 清华大学计算机博后,清华大学博士后
- VS2010连接数据库的操作(SQLServer2005/2008 以及Access2007/2003等)
- 流形间的映射(拉回映射与推前映射)及根据其定义的协变矢量和逆变矢量;切空间与余切空间
- Spring学习——自动装配
- 计算机扣款公式,迟到早退扣款公式怎么写?
热门文章
- Pdf.js 解决电子印章问题(最新)
- 永恒之蓝 ms17_010漏洞
- 碧育服务器维护公告,Ubisoft+
- vba 邮件body html,Excel VBA中的Outlook电子邮件和签名 - .Body vs .HTMLbody
- gnuplot常用技巧
- VMware下安装centos6.7的步骤
- Powerdesigner(16.6) 导出漂亮的word(实用型)
- 长方形与圆最近连线LISP_“认识长方形,正方形和圆”教学实录与评析
- 西储大学轴承数据小波变换
- 我的世界回连Center