【PhD Debate-9】浅谈自然语言处理中的泛化性

点击蓝字

关注我们

AI TIME欢迎每一位AI爱好者的加入！

作为机器学习的一个基础的方向和问题，泛化性一直是学术研究热点。同时站在应用视角来说，一个缺乏泛化性的模型是很难广泛应用到复杂的现实场景中的。考虑到语言本身的特殊性，如果从自然语言处理的视角，泛化性会有哪些特殊的含义？当前的学界研究热点又在哪里？未来又会有哪些趋势？

2022年2月26号，AI TIME组织了Ph.D. Debate第九期，题为“浅谈自然语言处理中的泛化性”的研讨活动，特别邀请了来自北航与微软亚洲研究院联合培养的刘乾、约翰霍普金斯大学的陈耘墨、剑桥大学的刘方宇以及香港大学的杜文宇作为嘉宾，由鼎富智能科技有限公司的算法研发部总监兼深度学习实验室总监李健铨担任主持人。

自然语言处理中泛化性指的是什么？

泛化性有着什么样的意义？

鉴于广义上泛化性的覆盖面非常广，同时考虑到语言本身的特殊性，嘉宾们介绍了在自然语言处理中常见的四类泛化性，分别是组合泛化性，跨领域泛化性，跨语言泛化性和跨任务泛化性。

首先杜文宇介绍了第一类泛化性，组合泛化性。语言复杂多样就体现在语言是由固定数目的词义原子之间的组合，而庞大的组合数目就对当前的靠学习训练样本分布的深度学习模型构成了严重的挑战——对于在训练集中不显著的词组句子段落，当前的模型往往达不到令人满意的程度，这也就是研究组合泛化性的意义所在。

刘乾紧接着介绍跨领域泛化性在自然语言处理中的应用，和领域适应的不同。跨领域泛化性的任务在训练时完全接触不到目标领域的数据。以语义解析任务为例，跨领域泛化性可以指泛化到新的数据表，泛化到新的领域数据表，或者是泛化到新的领域数据表与领域特定词汇。

陈耘墨随后介绍了第三类泛化性，跨语言泛化性。跨语言泛化性是指模型如何从原语言泛化到新的目标语言或多语言混合的任务。同时考虑到目标语言样本的数量，泛化性到目标语言的泛化性可被拆分成零样本（zero-shot）学习和小样本（few-shot）学习两类任务。

最后刘方宇介绍了第四类泛化性，跨任务泛化性。研究模型同时或顺时在多个任务上的表现都可以被划归到跨任务的泛化性。ACL20的一篇工作[1]研究了不同任务作为中间微调任务，对于下游任务的表现影响，有些任务如CosmosQA会对下游任务有着不小的提升，相应的其他任务如CCG则会伤害下游任务的表现。Google今年的两篇ICLR工作[2][3]分别从多任务学习和结构化输入视角来研究了跨任务的泛化性。

目前针对泛化性的学界关注的方向

(研究热点)在哪？

对于上面介绍了四类泛化性问题，嘉宾们着重探讨了前三类泛化性在学界的热点方向。

杜文宇首先介绍了组合泛化性的研究热点。由于缺乏合适的数据集，组合泛化性的研究者们首先就需要设计专门的数据集如SCAN和CFQ，这些数据集就会被作为衡量模型组合泛化性的标准，所以如何进行组合泛化性的评估（Evaluation）本身就是一个研究热点。此外他还以一篇Google关于语义解析中的组合泛化性的论文为例 [4]，探讨了中间表示在组合泛化性中的意义。

刘方宇接着介绍了视觉语言和语际锚的跨语言学习相关工作。在视觉语言的多模态场景下，设计一系列任务来检测模型的跨语言泛化性；在信息抽取场景下，通过常用领域的平行语料作为跨语种的语际锚来提升特殊领域的跨语言泛化性学习，以及补全多语言知识库的能力。

陈耘墨继续顺着介绍了在信息抽取场景下的跨语言学习。首先指出在多个语言上训练的通用编码器现在往往作为跨语言学习的基石，但是并不是训练语种越多对跨语言的帮助就越大。同时使用已有的良好通用编码器或其他跨语种模型如机器翻译作为数据投影可以增强模型的跨语言泛化能力，或使用通用编码器自训练方式生成新的平行语料。陈耘墨还提到了一些在信息抽取领域的跨语言泛化性的实验经验 [10]，模型选择和能力评估 [11, inter alia]。

刘乾则介绍了在语义解析领域的三种跨领域泛化性任务。第一种是元学习，即引入meta training和meta testing来在提升目标领域的泛化能力 [5]。第二种是语意落地（grounding），即将自然语言片段(span) 映射到现实世界的实体(entity)，从而提升语义解析的领域泛化能力 [6]。第三种是预训练模型，刘乾介绍了几种通过预训练模型增强跨领域泛化性的工作如TaBERT [7]、Grappa [8] 和TAPEX [9] 等。

泛化性的未来趋势有哪些？

对于泛化性的未来趋势，嘉宾们也都畅谈了自己的想法。

刘方宇谈到跨模态的跨语言泛化性问题中，由于多模态本身的特殊性，如果模型数据量只有数百的情况，那这样的模型和zero-shot和few-shot设置下模型的性能则基本一致，这是当前的一个亟待解决的问题。

刘乾继续说到文化可能也是跨语言泛化的一个难点，不同的文化导致的差异可能不比语言本身的差异小。杜文宇则补充到类似的文化之间可能由于文化的相近所以差距不至于很大。

刘乾接着探讨了泛化性和鲁棒性之间的关系，提到对于组合泛化而言，神经网络难以泛化到一些边缘点，这也是模型缺乏鲁棒性的体现。陈耘墨提到之前的工作一个三分类工作，对于中间类别的情况该如何选择，人类和模型往往会有不同的看法。刘方宇则补充到在实际应用中，就需要手动添加一步来专门处理out of distribution的case。

陈耘墨提到prompt-tuning这种parameter-efficient训练方式对于模型泛化性的作用，经过讨论后嘉宾们表示对于此类训练方法对于泛化性上的提升仍是一个开放的问题。

杜文宇提到了一个统一大模型和专门构造bias的模型之间对于泛化性比较的问题。刘乾认为大模型可能会有更好的scaleability，而陈耘墨则表示一个经过专门设计的模型结构可能对于某类具体应用会比一个普通神经网络大模型的效果更好，如对话系统中的Siri，Alexa。

最后也回答了两个观众的问题：“图文数据集需不需要区别一下不同文化？”和“跨文化之间的不同隐喻表达是属于泛化性吗？” 对于第一个问题，刘方宇表示这个需要看是具体的问题是什么，一个偏学术的数据集可能文化差异要远小于一个应用性的场景。第二个问题，刘方宇表示隐喻表达也是属于泛化性范畴的，其他嘉宾也表示了赞同。

参考文献

[1] Intermediate-Task Transfer Learning with Pretrained Models for Natural Language Understanding: When and Why Does It Work?

[2] ExT5: Towards Extreme Multi-Task Scaling for Transfer Learning

[3] Finetuned Language Models are Zero-Shot Learners

[4]Unlocking Compositional Generalization in Pre-trained Models Using Intermediate Representations

[5] Meta-Learning for Domain Generalization in Semantic Parsing

[6] Awakening Latent Grounding from Pretrained Language Models for Semantic Parsing

[7] TaBERT: Pretraining for Joint Understanding of Textual and Tabular Data

[8] GraPPa: Grammar-Augmented Pre-Training for Table Semantic Parsing

[9] TAPEX: Table Pre-training via Learning a Neural SQL Executor

[10] Everything Is All It Takes: A Multipronged Strategy for Zero-Shot Cross-Lingual Information Extraction]

[11] Model Selection for Cross-Lingual Transfer

往期精彩文章推荐

记得关注我们呀！每天都有新知识！

关于AI TIME

AI TIME源起于2019年，旨在发扬科学思辨精神，邀请各界人士对人工智能理论、算法和场景应用的本质问题进行探索，加强思想碰撞，链接全球AI学者、行业专家和爱好者，希望以辩论的形式，探讨人工智能和人类未来之间的矛盾，探索人工智能领域的未来。

迄今为止，AI TIME已经邀请了600多位海内外讲者，举办了逾300场活动，超150万人次观看。

我知道你

在看

哦

点击 阅读原文 查看回放！

【PhD Debate-9】浅谈自然语言处理中的泛化性相关推荐

直播预告 PhD Debate | 浅谈自然语言处理中的泛化性
点击蓝字关注我们 AI TIME欢迎每一位AI爱好者的加入! 2月26日晚8点,本期PhD Debate就自然语言处理中的泛化性邀请了来自北航与微软亚洲研究院的联合培养.约翰霍普金斯大学.剑桥大学 ...
【电力运维】浅谈电力通信与泛在电力物联网技术的应用与发展
摘要:随着我国社会经济的快速发展,我国科技实力得到了巨大的提升,当前互联网通信技术在社会中得到了广泛的应用.随着电力通信技术的快速发展与更新,泛在电力物联网建设成为电力通讯发展的重要方向.本文已泛在电 ...
浅谈电力通信与泛在电力物联网技术的应用与发展
引言随着我国社会经济的快速发展,社会与企业对电力服务的需求逐渐增加,分布式发电设备与电网结构得到了快速发展,传统的电网形态已无法满足当前社会的发展需要.随着 5G 通信在各大领域中的广泛推广,电网的 ...
浅谈电力通信与泛在电力物联网技术的应用与发展-Susie 周
1.引言随着我国社会经济的快速发展,社会与企业对电力服务的需求逐渐增加,分布式发电设备与电网结构得到了快速发展,传统的电网形态已无法满足当前社会的发展需要.随着 5G 通信在各大领域中的广泛推广,电 ...
在职研究生计算机专业经验分享,育龙在职研究生网浅谈计算机专业PHD申请经验...
育龙在职研究生网浅谈计算机专业PHD申请经验 Match.是否match应该是最重要的.大家可以换位思考一下,如果两个学生背景相差不大,你肯定会选择一个可以很快就能替你干活的学生.我自己的申请结果也很 ...
综述：自然语言处理中深度学习应用综述
原文链接:https://arxiv.org/abs/1807.10854 在过去几年中,自然语言处理领域由于深度学习模型的使用取得重大突破. 本综述简要介绍了这个领域,并简要概述了深度学习架构和方法 ...
自然语言处理中的预训练技术发展史
公众号关注 "视学算法" 设为 "星标",重磅干货,第一时间送达! 本文作者:张俊林 https://zhuanlan.zhihu.com/p/49271699 ...
必看！清华大学刘洋教授“浅谈研究生学位论文选题”方法，3月7日1小时视频公开课（附视频PPT下载）...
来源:专知本文约700字,建议阅读5分钟清华大学计算机系长聘教授刘洋老师在线讲授了关于<浅谈研究生学位论文选题方法>的课程. 标签:论文研究方法 [ 导读 ]在继续抗击疫情之际,3月7 ...
【强烈推荐】清华大学刘洋老师【浅谈研究生学位论文选题方法】讲座
关注上方"深度学习技术前沿",选择"星标公众号", 资源干货,第一时间送达! 在继续抗击疫情之际,3月7日,清华大学计算机系长聘教授刘洋老师在线讲授了关于< ...

【PhD Debate-9】浅谈自然语言处理中的泛化性

【PhD Debate-9】浅谈自然语言处理中的泛化性相关推荐

最新文章

热门文章