EMNLP 2019.9

论文及数据:https://maartensap.github.io/social-iqa/
参考代码:https://github.com/huggingface/transformers

概览

介绍了Social IQA,第一个面向社会情况常识推理的大规模基准,包含38000个覆盖日常情形中社交情感和智慧的多选题。(涵盖了关于在情境中描述人们的行为的各种类型的推断)

比如:Q:乔丹想告诉特雷西一个秘密,所以乔丹向特雷西靠近,为什么乔丹这么做?

A:为了保证别人听不到。

通过众包,收集常识性问题以及有关社交互动的正确和错误答案; 设计新的框架:通过要求工作人员为不同但相关的问题提供正确答案,来缓解错误答案的比例。

实验结果表明,对于基于预先训练的语言模型的现有问答模型,我们的基准测试具有挑战性,与人类表现差距20%。

值得注意的是,我们进一步将Social IQA建立为常识知识的迁移学习的资源,从而应用在多项常识推理任务上,取得比原来的最好效果更好的成绩。(比如Winograd Schemas,COPA)。

介绍

多选题分类:关于动机解释的,关于接下来发生什么事情,正常情感反应。

(正确回答问题需要对动机,情绪反应,或可能的前后动作)

(wants, reactions, descriptions, motivations, needs, effects;但实际上,社交IQA中,问题多集中在某人之后的感受和接下来可能做什么有关)

书面语料库中知识的偏差限制了可以学习的常识知识的范围。

基于AI系统,此数据集仍然具有挑战性,最佳性能基准达到64.5%(bert-large)。

模型面临着明显与观察到的上下文有关的问题,在三个竞争选择中可以找到正确的答案。

根据设计,这些问题需要对情境的社会原因和影响进行推理,符合AI助手与人类用户交互所需的智能类型。

(比如知道老人跌倒了要扶起来)

(与脚本事件预测区别在于问答类型的丰富,选项的减少,关注重点–从环到背景常识知识的改变)

这些推断的进行能够让我们成为社交场合的专家,并且心智论,对信念、动机进行推理的能力和理解其他人的需求密切相关。

赋予这种类型的智能机器是AI长期以来难以实现的目标。

ATOMIC

作为任务创建的起点,借鉴了ATOMIC的社会常识知识去播种我们的情景和问答类型。ATOMIC是一个大型知识图,其中包含有关24k短事件的起因和结果的推论知识。

创建数据库

事件定义

为了涵盖各种社会情况,使用ATOMIC的基本事件作为上下文创建的提示。作为预处理步骤,我们运行MTurk任务:要求工作人员将通过添加名称,修复潜在的语法错误以及填写占位符,将ATOMIC事件变成一个句子。

(一个事件的标注花了0.35美元)

上下文、问题及答案创建

运行一个任务,其中注释者创建完整的上下文问题-答案三元组。自动生成覆盖ATOMIC的9大常识推理维度的问题示例。使用事件句子和推理问题提示众包者,以使其成为更详细的上下文,以及如果需要提高的个性化的问题的编辑版本,并且还要求工人提供两个可能的正确答案。

众包特殊规则

除了正确答案外,还会收集四个正确答案选项,其中我们会过滤两个选项。为了创建对模型不利但对人类容易的不正确选项,我们使用两种不同的方法收集。专门设计这两种方法是为了避免注释伪像的实体类型不同,从而使模型更难以依靠数据偏差。我们集成和过滤答案选项,并通过人工评估任务验证最终的质量检查元组。

手写错误答案

第一种方法涉及得到需要对上下文进行推理的手写不正确答案:这些答案在主题、长度和样式方面都与正确答案类似,但实际上是错误的。其中的两个答案是在同一MTurk任务期间与原始上下文,问题和正确答案一起收集的。 我们将这些负面回答称为手写的错误答案。

问题转换答案(QSA)

我们这样做是为了避免在候选答案中出现认知偏差和注释伪影,例如由于撰写错误答案或否定词而引起的认知偏差和注释伪影。

在此众包任务中,我们提供与原始问题相同的上下文,以及从不同但相似的ATOMIC维度自动生成的问题,并要求工人写出两个正确答案。

通过包含对相同上下文的不同问题的答案,我们确保这些对抗性回答具有正确答案的风格特征,并且与上下文主题密切相关,同时仍然是错误的,从而使模型难以简单地执行模式匹配。

创建QA组

作为流程的最后一步,我们将数据汇总为三项多项选择题。 根据Zellers等人的启发,对于由众包工作者贡献的每个创建的情境问题对,我们选择一个随机的正确答案和最少包含正确答案的错误答案。

多次核实表决;应用了轻量级的对抗过滤器,通过使用深度样式分类器来删除开发和测试集上更简单的示例,从而使任务更具挑战性。

为了获得人类的绩效,运行了一项单独的任务,要求三名新员工从900个开发人员的随机子集中选择正确答案。900个测试示例,这些子集上的人类绩效分别是87%和84%。

结论

介绍了Social IQA,这是社会常识的第一个大型基准。社交IQA由38k个多项选择题组成,涵盖了有关在情境中描述人们的行为的各种推断。

设计了一个用于收集质量检查对的众包框架,可通过对抗性问题切换方法来减少否定答案的文物。尽管人类的性能接近90%,但基于大型预训练语言模型的计算方法只能达到65%的精度,这表明这些社会推理仍然是AI系统的挑战。

除了提供新的基准外,还演示了如何将学习从Social IQA转移到其他常识性挑战,可以如何产生重大改进,在COPA和Winograd Schema Challenge数据集上均获得最新的最新性能。

Social IQA:Commonsense Reasoning about Social Interactions相关推荐

  1. 王家林人工智能AI第19课:使用决策树在Social Network上构建汽车销售推荐系统老师微信13928463918

    王家林人工智能AI第19课:使用决策树在Social Network上构建汽车销售推荐系统老师微信13928463918

  2. 文献阅读(32)ACM TIST2017-PRIS:Profession Identification in Social Media

    本文是对<PRIS:Profession Identification in Social Media>一文的浅显翻译与理解,如有侵权即刻删除. 朋友们,我们在github创建了一个图学习 ...

  3. CommonGen: A Constrained Text Generation Challenge for Generative Commonsense Reasoning 代码执行记录

    CommonGen: A Constrained Text Generation Challenge for Generative Commonsense Reasoning 代码执行踩坑记录 文章目 ...

  4. 论文阅读:social lstm:Human Trajectory Prediction in Crowded Spaces

    社会LSTM:拥挤空间中的人类轨迹预测 学习笔记参考:study note: https://www.zybuluo.com/ArrowLLL/note/981714 摘要:行人遵循不同的轨迹以避开障 ...

  5. Social Radio:像收听广播一样收听Twitter状态更新

    如果离开电脑也能知道Twitter朋友的最新消息该多好啊,Social Radio可以实现你这个愿望,这家公司利用语音合成技术,让用户像收听广播一样收听社交内容. 其Web版还处于公测阶段,不过今天发 ...

  6. 复旦大学桂韬:当NLP邂逅Social Media--构建计算机与网络语言的桥梁

    不到现场,照样看最干货的学术报告! 嗨,大家好.这里是学术报告专栏,读芯术小编不定期挑选并亲自跑会,为大家奉献科技领域最优秀的学术报告,为同学们记录报告干货,并想方设法搞到一手的PPT和现场视频--足 ...

  7. 论文解读:Generated Knowledge Prompting for Commonsense Reasoning

    地址:https://arxiv.org/abs/2110.08387 尽管大型语言模型能够在预训练期间捕获大量知识,但它们通常受益于整合外部知识库,尤其是在常识推理任务上. 这促使我们探索如何更好地 ...

  8. media social 指什么_什么是social media?

    什么是社会化媒体,首先要从媒体的定义来看,媒体就是信息的载体或者平台. 周口店猿人之间的对话不算媒体,一个猿人把狩猎场面刻在了石头上,其他猿人和今人看到了,这个石头就是媒体,后来的猿人可以模仿上面刻画 ...

  9. Multi-Level Knowledge Injecting for Visual Commonsense Reasoning

    摘要--当浏览一幅图像时,人类可以推断出隐藏在图像中的东西,而不是视觉上明显的东西,例如物体的功能.人的意图和精神状态.然而,这种视觉推理范式对计算机来说非常困难,需要了解世界是如何工作的.为了解决这 ...

最新文章

  1. 二维指针删除单向链表
  2. python【蓝桥杯vip练习题库】ALGO-141 P1102(学生信息)
  3. swing之单选框和复选框
  4. 补充部分官方文档里没有的Client Library以及代码提示Schema更新(三)
  5. 基础: 一、Android环境搭建
  6. Java实现获取HDFS子目录数量_Java实现读取HDFS目录
  7. 关于机器学习的最佳科普文章:《从机器学习谈起》
  8. 【PAT乙】1065 单身狗 (25分)
  9. C# winform窗体实现图片轮播
  10. 天翼校园网连接不上服务器无响应,使用天翼校园客户端提示登陆失败应该怎么处理?...
  11. CDN 网站部署全站加速服务
  12. 本周最新文献速递20211128
  13. A Survey on Vision Transformer
  14. 折半查找平均长度公式推导
  15. ActiveMQ的作用,原理是啥?
  16. vue中同一个依赖引入不同版本
  17. Unity技术手册 - 生命周期LifetimebyEmitterSpeed-周期内颜色ColorOverLifetime-速度颜色ColorBySpeed
  18. MySQL 之全文索引--fulltext
  19. Deepin系统个人评测
  20. 启动异常 Field XXX in XXXX required a bean of type XXXX that could not be found.

热门文章

  1. 推广北斗导航建立大数据平台
  2. 工程师必备十大“小软件”
  3. 解决ecshop出现Warning: file_put_contents
  4. 使用Python2.7登录江苏大学信息门户并爬取成绩
  5. Linux指令的几个重要概念
  6. ios 百度地图指定区域_IOS 百度地图定位,显示地理位置
  7. 对软件工程的问题 用过的三款软件的特点
  8. ZZ:Django 模板
  9. Windows系统安装Android SDK
  10. windows下配置Android环境