哈工大SCIR十篇长文被EMNLP 2022主会及子刊录用

每天给你送来NLP技术干货！

来自：哈工大SCIR

EMNLP 2022（The 2022 Conference on Empirical Methods in Natural Language Processing）将于2022年12月7日至11日以线下和在线混合会议的形式举办。EMNLP是计算语言学和自然语言处理领域顶级国际会议之一，CCF B类会议，由ACL SIGDAT（语言学数据特殊兴趣小组）主办，每年举办一次。

EMNLP 2022接收的论文覆盖了对话交互系统、信息抽取、信息检索和文档分析、词法语义、语言学理论、认知建模和心理语言学、用于NLP的机器学习、机器翻译与多语言、问答、句子级语义学、情感分析和论点挖掘、文本挖掘和NLP应用、文本推理等自然语言处理领域众多研究方向。

哈尔滨工业大学社会计算与信息检索研究中心有10篇长文被录用，其中7篇被主会录用，3篇被Findings of EMNLP子刊录用。下面是论文列表及介绍：

题目：Face-Sensitive Image-to-Emotional-Text Cross-modal Translation for Multimodal Aspect-based Sentiment Analysis

作者：杨浩，赵妍妍，秦兵

录用类别：主会

简介：现有的大部分在多模态图文细粒度情感分类任务上的工作都利用了对象级的视觉语义信息，但忽视了显式利用视觉模态中的细粒度情感线索，如何从视觉模态中捕获细粒度情感线索并与文本模态建立跨模态对齐关系仍是该问题的核心挑战。在本文中，我们尝试发掘图像中人脸信息来获取视觉情感线索，并通过结合跨模态转换的思想，提出人脸敏感的图文细粒度情感分类方法FITE，将视觉信息文本化并建立与Aspect的跨模态的细粒度对齐关系。实验证明，我们的方法在不需要额外训练新的image caption模型的情况下，在两个基准数据集上实现了SOTA的效果。

题目：STGN: an Implicit Regularization Method for Learning with Noisy Labels in Natural Language Processing

作者：吴婷婷，丁效，唐旻骥，张浩，秦兵，刘挺

录用类别：主会

简介：标签噪声（noisy labels）普遍存在于NLP的各项任务中，而现有的工作（即NLP中带标签噪声的学习）常局限于特定的任务或者训练步骤，使得上述这些方法很难被广泛应用。在本工作中，我们提出利用一种良性噪声来对抗固有的标签噪声。作为一种通用方法，我们在三种不同的NLP任务上进行了实验，通过详尽的理论分析和实验结果表明本文提出方法的有效性。

题目：A Distributional Lens for Multi-Aspect Controllable Text Generation

作者：顾宇轩，冯骁骋，马思成，张凌源，龚恒，秦兵

录用类别：主会

简介：多属性可控文本生成是比单属性控制更具挑战性和实用性的任务。现有的方法通过融合从单属性学习到的多个控制器来实现复杂的多属性控制，但会面对控制器相互干扰的问题。为了解决这个问题，我们从分布的角度提供了对属性融合的观察，并提出直接搜索多个属性分布的交叉区域作为它们的组合并进行生成。我们的方法首先用自编码器结构估计属性空间。之后，我们通过同时最小化到不同属性样本点的距离来迭代地接近交叉区域。最后，我们使用基于前缀调整的解码器将它们映射到与属性相关的句子。在三种控制任务上（包括情感控制、主题控制和文本去毒）的实验表明，我们的方法在属性相关性和文本质量方面优于几个强大的基线，并达到了SOTA。后续分析也为我们方法的有效性提供了一些解释性支持。

题目：Unifying the Convergences in Multilingual Neural Machine Translation

作者：黄毅翀，冯骁骋，耿昕伟，秦兵

录用类别：主会

简介：多语言机器翻译 (Multilingual Neural Machine Translation) 旨在使用一个统一的模型来完成多种语言对的翻译，这种方式不仅极大降低了部署成本，更提升了低资源语言对的翻译性能。尽管取得了不错的进展，但现有研究忽略了其中存在的收敛不一致性问题，即不同的语言在训练的不同轮数上达到最优。这一问题使得最终训练得到的模型过拟合低资源语言而欠拟合高资源语言。因此，本文提出语言特定的自蒸馏算法来统一不同语言的收敛性。我们通过实验证明了本文方法在缓解收敛不一致性的有效性，并极大提升了多语言翻译的性能。

题目：Distilled Dual-Encoder Model for Vision-Language Understanding

作者：汪泽堃，王文辉，朱海潮，刘铭，秦兵，韦福如

录用类别：主会

简介：在视觉语言理解（VLU）任务上，融合编码器视觉语言模型取得了卓越的结果，但由于同时对图像和文本进行编码，牺牲了效率。相反，分别对图像和文本进行编码的双编码器模型在效率方面具有优势，而在VLU任务上则由于缺乏深层次的跨模态互动而失败。为了两全其美，我们提出了DiDE，一个将融合编码器模型（教师）的知识蒸馏至双编码器模型（学生）的框架。由于跨模态交互是教师表现优异的关键，但在学生模型中却没有，我们鼓励学生在训练过程中不仅要接近教师的预测，还要同样计算跨模态的注意力分布并与教师对齐。实验结果表明，DiDE在性能上取得了与融合编码器的教师模型有竞争力的结果（只下降了1%），同时有4倍的加速。进一步的分析显示，我们提出的跨模态注意力蒸馏机制对于我们框架的成功至关重要。

题目：ReCo: Reliable Causal Chain Reasoning via Structural Causal Recurrent Neural Networks

作者：熊凯，丁效，李忠阳，杜理，刘挺，秦兵，郑毅，怀宝兴

录用类别：主会

简介：因果事件链对于很多AI决策系统来说具有重要意义。目前大部分获取因果事件链的方法首先抽取出大量且高质量的因果事件对，然后根据事件之间的文本或语义相似度将事件对连接成因果事件链或事件图，这种简单的因果事件链的构建方法会导致一系列的因果传递性的问题，从而导致因果链不可靠，其中最显著的是阈值效应和场景漂移问题。为了解决这两类问题，我们首先定义了因果链推理任务，并提出了一个可靠的因果链推理框架(ReCo)，ReCo对于每个因果链构建一个结构因果模型，利用结构因果模型中的外生变量来表示因果链中每个因果对的阈值和场景因素，然后利用条件变分自编码器对外生变量进行隐式地捕获，最后提出一个结构因果循环神经网络对结果因果模型进行建模。在中英文因果链推理数据集上的实验证明了ReCo的优越性。额外的消融实验以及知识注入实验进一步验证了ReCo的有效性。

题目：Towards Knowledge-Intensive Text-to-SQL with Formulaic Knowledge

作者：窦隆绪，高妍，刘栩祺，潘明扬，王丁子睿，车万翔，靳民彦，战德臣, 楼建光

录用类别：主会

简介：在本文中，我们提出了一种新的任务，名为“知识密集型的SQL语义解析”，以解决专业数据分析场景中对于表格结构的专业提问（例如“金砖国家中哪一个公司的EBIT最大？”中的“金砖国家”与“EBIT”都是专业术语）。我们首先构建了一个新的中文数据集KnowSQL，涵盖三个专业领域（金融、交通、房地产）。为了解决该问题，受人类学习过程的启发，我们进一步提出了ReGrouP框架，使模型具备开卷考试（检索知识、编辑知识、运用知识）的能力，以高效便捷地解决垂直领域下的数据分析。而知识的来源和形式，我们将其创新地将其表示为公式型知识（Formulaic Knowledge），这类知识相比文本型知识，更加简洁准确，并且和SQL形式更加接近。相关的样例分析和实验结果表明，KnowSQL是一个非常有挑战的数据集，现有的基线方案难以符合专业场景的需求；而ReGrouP通过简单的通过扩充公式知识库，能达到边做边学（learning-on-the-fly）的目的，快速达到理想效果。审稿人一致认为该方案会在垂直领域的NLP应用方面激发出新的研究思路。

题目：Knowledge-centric Response Selection for Document-grounded Dialogue

作者：马龙轩，张伟男，李佳朋，李明达，刘挺

录用类别：Findings of EMNLP 子刊

简介：基于文档的对话使用非结构化文档作为对话上下文的额外知识，进而提升对话的质量。在检索模型中，之前的方法通常以对话为中心建模，这导致在知识筛选阶段的误差会级联传播到回复筛选任务上。因此本文提出一种以知识为中心的方法来建模不同元组之间的关系。实验证明该方法能够大幅提升知识筛选和回复筛选的准确度。

题目：TSGP: Two-Stage Generative Prompting for Unsupervised Commonsense Question Answering

作者：孙月晴，张宇，齐乐，施琦

录用类别：Findings of EMNLP 子刊

简介：无监督常识问答需要在不依赖标注数据的情况下挖掘有效的常识知识。目前的工作通常从传统知识库中检索知识或使用预训练语言模型生成固定类型的知识，泛化能力较差。在本工作中，我们利用存储在预训练语言模型中的隐式知识来解决上述限制，提出一个基于两阶段提示的无监督常识问答框架（TSGP）。对三种不同的常识推理任务CommonsenseQA、OpenBookQA 和 SocialIQA 的实验结果和分析表明，TSGP在无监督设置下显着提高了语言模型的推理能力。

题目：LEMON: Language-Based Environment Manipulation via Execution-Guided Pre-training

作者：施琦，刘乾，陈蓓，张宇，刘挺，楼建光

录用类别：Findings of EMNLP 子刊

简介：基于自然语言的环境操纵（Language-based environment manipulation，LEM）需要模型根据自然语言指令来控制环境的改变，由于环境的巨大空间，这具有巨大的挑战性。目前的工作大部分只适用于特定环境，其难以跨环境泛化。在这项工作中，我们提出了LEMON，一个LEM任务的通用框架。具体来说，我们首先为LEM任务设定了一种任务无关的方法，该方法可以使用相同的生成式语言模型来处理多种环境。然后，我们提出了一种执行指导的预训练策略，其通过纯合成预训练语料库将环境的先验知识注入到语言模型中。在 ALCHEMY、SCENE、TANGRAMS、PROPARA 和 RECIPES 任务上的实验结果证明了 LEMON 的有效性：LEMON在其中的四个数据集上取得了SOTA结果，并且执行引导的预训练策略为所有五个任务带来了显著改进。

本期责任编辑：赵森栋

本期编辑：钟蔚弘

哈工大SCIR十篇长文被EMNLP 2022主会及子刊录用相关推荐

哈工大SCIR 13篇长文被ACL 2023主会/Findings录用
来自:哈工大SCIR 进NLP群->加入NLP交流群 ACL 2023 将于2023年7月9-14日在加拿大多伦多举行.ACL年会是计算语言学和自然语言处理领域最重要的顶级国际会议,CCF A类 ...

一文了解复旦大学NLP实验室的14篇EMNLP 2022长文内容
每天给你送来NLP技术干货! 来自:FudanNLP EMNLP 2022 (The 2022 Conference on Empirical Methods in Natural Language ...

【哈工大SCIR】八篇长文被ACL 2020录用
ACL 2020, The 58th Annual Meeting of the Association for Computational Linguistics 原定于2020年7月5日至10日在 ...

【深度学习】2022年最值得关注的十篇论文，你都看了吗？来卷来学习
选自Ahead of AI 作者:Sebastian Raschka 机器之心编译编辑:王强.蛋酱年关将至,威斯康星大学助理教授 Sebastian Raschka 盘点了 2022 年他最看好的 ...

阿里妈妈技术团队 5 篇论文入选 TheWebConf 2022
近日,第31届国际万维网大会(The Web Conference / WWW)审稿结果出炉, 阿里妈妈技术团队有5篇论文入选. TheWebConf 成立于1989年,原名为"The In ...

阿里妈妈技术团队4篇论文入选WSDM 2022
关于WSDM WSDM(The International Conference on Web Search and Data Mining)是信息检索与数据挖掘领域的国际顶级会议,由 SIGIR.S ...

【哈工大SCIR笔记】机器阅读理解简述
点击上方,选择星标或置顶,每天给你送干货! 阅读大概需要25分钟跟随小博主,每天进步一丢丢来自:哈工大SCIR 作者:施琦.妥明翔.孙月晴.尹治博机器阅读理解技术即机器自动从给定的文本中回答用户 ...

陈丹琦带队全员女将发新论文！提出AI消除性别偏见新方法，适用于任何模型 | EMNLP 2022...
Pine 明敏发自凹非寺量子位 | 公众号 QbitAI 陈丹琦新论文来了! 研究团队全员女将,这是她在普林斯顿的第一篇all-female author论文. 论文主题也和女性议题有关. 论文 ...

EMNLP 2022投稿要求
导语记录EMNLP 2022投稿要求,原网址连接:https://2022.emnlp.org/calls/papers/Overview . 要点记录由于原网页内容较多,这里列几个我认为值得注意 ...

最新文章

爬虫综合大作业（震惊！爬取了590位微信好友后竟然发现了）

python中color的用法_python - 如何为热图（使用plt.pcolor创建）中的NaN单元分配特定的颜色或图案，并使其显示在颜色栏中（图colorbar） - 堆栈内存溢出...

Oracle分析函数详述

python统计文件字数_python统计文本文件的字数

公众号获取token失败_恶意请求微信公众号token，导致access_token超过10万次解决思路...

交互设计原则有哪些？

在一起计时器_拥有计时器的四个怪兽，一个从杰克身上拿的，一个差点打死赛罗...

大数据实效_新都区：运用“大数据”提升专项巡察实效

myeclipse 安装phpeclipse插件

xv6 risc-v file system logging layer

java程序员看什么书籍比较好？（小白升级路线）

InFusion错误类型分析

第4章_1——SQL语句实现MySQL增删改查

php phpunit selenium,PHPUnit和Selenium

生产力工具：功能强大又好用的浏览器网页截屏工具FireShot

DOTA双功能螯合剂127985-74-4，p-SCN-Bn-DOTA，实验室科研试剂

【Linux编程】UVC摄像头采集与显示（V4L2编程）

电子检测报告如何盖骑缝章？

Ant是什么使用介绍

eclipse和mysql项目打包_eclipse打包jar过程

热门文章

极客日报：苹果或推出粉色款iPhone 13；拼多多再超阿里

企业级大数据平台智能运维好帮手——星环科技多模数据平台监控软件Aquila Insight

linux展示表空间大小,oracle中看表空间大小等

理赔实录｜有了「安心赔」，理赔不再愁

Java岗最全面试攻略，吃透这些技术栈Offer拿到手软

Django实战教程

2021年职业院校技能大赛“网络安全”项目江西省A模块

Arduino的密码锁

结婚仪式的过程（供朋友们参考）

案例分享 | 某券商利用AI技术进行告警关联分析（上）