Social IQA:Commonsense Reasoning about Social Interactions
EMNLP 2019.9
论文及数据:https://maartensap.github.io/social-iqa/
参考代码:https://github.com/huggingface/transformers
概览
介绍了Social IQA,第一个面向社会情况常识推理的大规模基准,包含38000个覆盖日常情形中社交情感和智慧的多选题。(涵盖了关于在情境中描述人们的行为的各种类型的推断)
比如:Q:乔丹想告诉特雷西一个秘密,所以乔丹向特雷西靠近,为什么乔丹这么做?
A:为了保证别人听不到。
通过众包,收集常识性问题以及有关社交互动的正确和错误答案; 设计新的框架:通过要求工作人员为不同但相关的问题提供正确答案,来缓解错误答案的比例。
实验结果表明,对于基于预先训练的语言模型的现有问答模型,我们的基准测试具有挑战性,与人类表现差距20%。
值得注意的是,我们进一步将Social IQA建立为常识知识的迁移学习的资源,从而应用在多项常识推理任务上,取得比原来的最好效果更好的成绩。(比如Winograd Schemas,COPA)。
介绍
多选题分类:关于动机解释的,关于接下来发生什么事情,正常情感反应。
(正确回答问题需要对动机,情绪反应,或可能的前后动作)
(wants, reactions, descriptions, motivations, needs, effects;但实际上,社交IQA中,问题多集中在某人之后的感受和接下来可能做什么有关)
书面语料库中知识的偏差限制了可以学习的常识知识的范围。
基于AI系统,此数据集仍然具有挑战性,最佳性能基准达到64.5%(bert-large)。
模型面临着明显与观察到的上下文有关的问题,在三个竞争选择中可以找到正确的答案。
根据设计,这些问题需要对情境的社会原因和影响进行推理,符合AI助手与人类用户交互所需的智能类型。
(比如知道老人跌倒了要扶起来)
(与脚本事件预测区别在于问答类型的丰富,选项的减少,关注重点–从环到背景常识知识的改变)
这些推断的进行能够让我们成为社交场合的专家,并且心智论,对信念、动机进行推理的能力和理解其他人的需求密切相关。
赋予这种类型的智能机器是AI长期以来难以实现的目标。
ATOMIC
作为任务创建的起点,借鉴了ATOMIC的社会常识知识去播种我们的情景和问答类型。ATOMIC是一个大型知识图,其中包含有关24k短事件的起因和结果的推论知识。
创建数据库
事件定义
为了涵盖各种社会情况,使用ATOMIC的基本事件作为上下文创建的提示。作为预处理步骤,我们运行MTurk任务:要求工作人员将通过添加名称,修复潜在的语法错误以及填写占位符,将ATOMIC事件变成一个句子。
(一个事件的标注花了0.35美元)
上下文、问题及答案创建
运行一个任务,其中注释者创建完整的上下文问题-答案三元组。自动生成覆盖ATOMIC的9大常识推理维度的问题示例。使用事件句子和推理问题提示众包者,以使其成为更详细的上下文,以及如果需要提高的个性化的问题的编辑版本,并且还要求工人提供两个可能的正确答案。
众包特殊规则
除了正确答案外,还会收集四个正确答案选项,其中我们会过滤两个选项。为了创建对模型不利但对人类容易的不正确选项,我们使用两种不同的方法收集。专门设计这两种方法是为了避免注释伪像的实体类型不同,从而使模型更难以依靠数据偏差。我们集成和过滤答案选项,并通过人工评估任务验证最终的质量检查元组。
手写错误答案
第一种方法涉及得到需要对上下文进行推理的手写不正确答案:这些答案在主题、长度和样式方面都与正确答案类似,但实际上是错误的。其中的两个答案是在同一MTurk任务期间与原始上下文,问题和正确答案一起收集的。 我们将这些负面回答称为手写的错误答案。
问题转换答案(QSA)
我们这样做是为了避免在候选答案中出现认知偏差和注释伪影,例如由于撰写错误答案或否定词而引起的认知偏差和注释伪影。
在此众包任务中,我们提供与原始问题相同的上下文,以及从不同但相似的ATOMIC维度自动生成的问题,并要求工人写出两个正确答案。
通过包含对相同上下文的不同问题的答案,我们确保这些对抗性回答具有正确答案的风格特征,并且与上下文主题密切相关,同时仍然是错误的,从而使模型难以简单地执行模式匹配。
创建QA组
作为流程的最后一步,我们将数据汇总为三项多项选择题。 根据Zellers等人的启发,对于由众包工作者贡献的每个创建的情境问题对,我们选择一个随机的正确答案和最少包含正确答案的错误答案。
多次核实表决;应用了轻量级的对抗过滤器,通过使用深度样式分类器来删除开发和测试集上更简单的示例,从而使任务更具挑战性。
为了获得人类的绩效,运行了一项单独的任务,要求三名新员工从900个开发人员的随机子集中选择正确答案。900个测试示例,这些子集上的人类绩效分别是87%和84%。
结论
介绍了Social IQA,这是社会常识的第一个大型基准。社交IQA由38k个多项选择题组成,涵盖了有关在情境中描述人们的行为的各种推断。
设计了一个用于收集质量检查对的众包框架,可通过对抗性问题切换方法来减少否定答案的文物。尽管人类的性能接近90%,但基于大型预训练语言模型的计算方法只能达到65%的精度,这表明这些社会推理仍然是AI系统的挑战。
除了提供新的基准外,还演示了如何将学习从Social IQA转移到其他常识性挑战,可以如何产生重大改进,在COPA和Winograd Schema Challenge数据集上均获得最新的最新性能。
Social IQA:Commonsense Reasoning about Social Interactions相关推荐
- 王家林人工智能AI第19课:使用决策树在Social Network上构建汽车销售推荐系统老师微信13928463918
王家林人工智能AI第19课:使用决策树在Social Network上构建汽车销售推荐系统老师微信13928463918
- 文献阅读(32)ACM TIST2017-PRIS:Profession Identification in Social Media
本文是对<PRIS:Profession Identification in Social Media>一文的浅显翻译与理解,如有侵权即刻删除. 朋友们,我们在github创建了一个图学习 ...
- CommonGen: A Constrained Text Generation Challenge for Generative Commonsense Reasoning 代码执行记录
CommonGen: A Constrained Text Generation Challenge for Generative Commonsense Reasoning 代码执行踩坑记录 文章目 ...
- 论文阅读:social lstm:Human Trajectory Prediction in Crowded Spaces
社会LSTM:拥挤空间中的人类轨迹预测 学习笔记参考:study note: https://www.zybuluo.com/ArrowLLL/note/981714 摘要:行人遵循不同的轨迹以避开障 ...
- Social Radio:像收听广播一样收听Twitter状态更新
如果离开电脑也能知道Twitter朋友的最新消息该多好啊,Social Radio可以实现你这个愿望,这家公司利用语音合成技术,让用户像收听广播一样收听社交内容. 其Web版还处于公测阶段,不过今天发 ...
- 复旦大学桂韬:当NLP邂逅Social Media--构建计算机与网络语言的桥梁
不到现场,照样看最干货的学术报告! 嗨,大家好.这里是学术报告专栏,读芯术小编不定期挑选并亲自跑会,为大家奉献科技领域最优秀的学术报告,为同学们记录报告干货,并想方设法搞到一手的PPT和现场视频--足 ...
- 论文解读:Generated Knowledge Prompting for Commonsense Reasoning
地址:https://arxiv.org/abs/2110.08387 尽管大型语言模型能够在预训练期间捕获大量知识,但它们通常受益于整合外部知识库,尤其是在常识推理任务上. 这促使我们探索如何更好地 ...
- media social 指什么_什么是social media?
什么是社会化媒体,首先要从媒体的定义来看,媒体就是信息的载体或者平台. 周口店猿人之间的对话不算媒体,一个猿人把狩猎场面刻在了石头上,其他猿人和今人看到了,这个石头就是媒体,后来的猿人可以模仿上面刻画 ...
- Multi-Level Knowledge Injecting for Visual Commonsense Reasoning
摘要--当浏览一幅图像时,人类可以推断出隐藏在图像中的东西,而不是视觉上明显的东西,例如物体的功能.人的意图和精神状态.然而,这种视觉推理范式对计算机来说非常困难,需要了解世界是如何工作的.为了解决这 ...
最新文章
- 二维指针删除单向链表
- python【蓝桥杯vip练习题库】ALGO-141 P1102(学生信息)
- swing之单选框和复选框
- 补充部分官方文档里没有的Client Library以及代码提示Schema更新(三)
- 基础: 一、Android环境搭建
- Java实现获取HDFS子目录数量_Java实现读取HDFS目录
- 关于机器学习的最佳科普文章:《从机器学习谈起》
- 【PAT乙】1065 单身狗 (25分)
- C# winform窗体实现图片轮播
- 天翼校园网连接不上服务器无响应,使用天翼校园客户端提示登陆失败应该怎么处理?...
- CDN 网站部署全站加速服务
- 本周最新文献速递20211128
- A Survey on Vision Transformer
- 折半查找平均长度公式推导
- ActiveMQ的作用,原理是啥?
- vue中同一个依赖引入不同版本
- Unity技术手册 - 生命周期LifetimebyEmitterSpeed-周期内颜色ColorOverLifetime-速度颜色ColorBySpeed
- MySQL 之全文索引--fulltext
- Deepin系统个人评测
- 启动异常 Field XXX in XXXX required a bean of type XXXX that could not be found.