【Wiztalk腾讯广告专场】系列分享来袭,第三期由清华大学计算机系副教授、博士生导师刘知远老师与清华大学计算机系硕士生周界为大家深度介绍 《基于图结构的事实验证》

从浅显的文本处理走向推理和判断

随着自然语言处理(NLP)技术的逐渐发展成熟、文本语料数据的不断积累,我们能设计、训练出越来越强大的NLP模型,越来越多的语言相关任务也已经从人工转向了由NLP模型自动处理,各种语言互译的机器翻译就是最典型、最常见的例子。不过也有一些更高级的NLP应用需要的不仅是更多的语料数据,还需要更准确的语料数据,比如知识图谱建立、基于文本的开放问答,都需要文本语料真实、可信,才能得到好的结果。

在这样的背景下,**事实验证(Fact Verification)**这个问题近年来逐渐被重视起来。事实验证是指,给出一条陈述以后,要根据若干条线索判断这条陈述是“得到支持”的、“和证据不符”的、还是“信息不足无法判断”的,简单来说就是真假判断。

除了为其它的NLP应用服务以外,验明真伪这件事本身在这个自媒体发达、网络上的信息快速更新发酵的时代也有很大作用 —— 很多人根据大众的心理期待编造假消息,即便读者当时看得开心,但假消息始终都是不应当被鼓励的,也可能会对涉及到的人和事造成实际的伤害。

事实验证的难点

许多陈述的真假判断都需要基于多条不同的证据综合判断,这正是这个任务的难点。一个例子比如:

例1:
陈述: 电视剧《Giada at Home》只能通过购买DVD观看。
证据1:《Giada at Home》是一部Food电视台在2018年10月首映的电视剧。
证据2: Food电视台是一家美国的有线电视和卫星电视频道。

想要判断给出的这条陈述是否正确,不仅没法通过证据1或者证据2中的某一条单独判断,在联合运用这两条证据的时候也不那么简单,需要根据两条证据之间的联系重新组织逻辑关系, 相当于构造出含有新的信息的新证据,然后再据此判断。

在实际的自动化检测中,我们的证据抽取模块并不能总是抽取出能够帮助验证的证据,它们往往会引入一些噪声,如何处理抽取证据中的噪声也是这个问题的另一个挑战,请看例2。

例2:
陈述: Al Jardine 是一位美国节奏吉他手。
证据1: 他最广为人知的身份是乐队的节奏吉他手,他偶尔也会在“Help Me, Rhonda”、“Then I Kissed Her”、“Come Go with Me”等单曲中担任主唱。
证据2: Alan Charles Jardine(1942年9月3日出生)是一位美国音乐家、歌手、作曲家,而且他和别人一同成立了The Beach Boys乐队。
证据3: 2010年,Jardine 发布了他的首张个人独唱专辑,名为《A Postcard from California》。
证据4: 1988年,Jardine 作为The Beach Boys乐队的一员入选了摇滚名人堂。
证据5: Ray Jardine,美国攀岩选手,轻装背包客,发明家,作家以及全球探者。

在这个例子中,只需要联合证据1、2就可以判断出给出的陈述是“得到支持”的,其它三条证据都派不上用场,而证据5甚至是另一个人物的相关介绍。

当前的大多数事实验证方法的处理能力并不理想,它们要么每次只能处理一条陈述和一条证据,要么只能简单地把不同的证据文本依次串联到一起(以便把多条证据合并为一条证据来处理),所以它们经常无法从线索中捕捉到足够多的关系和逻辑信息。

上面的例1和例2,都没办法单独根据某一条证据做出判断,简单把证据串联往往也会引入很多噪声,模型必须要在理解语义、找到逻辑关系的基础上才能进行判断。 为了能够综合整合不同证据之间的有用信息、形成新的逻辑链条并完成判断,清华大学刘知远老师团队 设计了一个运用图结构的GEAR模型,可以很好地完成复杂的事实验证任务。

事实验证任务简介

在先进的语言表征下让逻辑关系开花结果

GEAR模型的全称是Graph-based Evidence Aggregating and Reasoning, 正如其名,它的设计和运行基于图(graph),并且它能执行证据的聚合和推理。

在GEAR模型中首先会构造一个全连接的证据图,并且鼓励证据之间传播信息。接着,模型会通过图注意力机制聚合证据片段,并通过一个分类器来判断现有证据对陈述的支持程度,即“得到支持”、“和证据不符”、还是“信息不足无法判断”。 直觉上来说,只需要让证据中含有的信息做足够多的交换和推理,交汇的信息、有关联的逻辑链条就会自然浮现,这个模型就能够做出合理的判断了。用来聚合证据判断的注意力机制也能优先提取出含有有效信息的证据句子,避免被多余的、无关的证据句子干扰。

不过这还不够,自然语言毕竟具有一定的灵活性,同样的意思也许换一个方式表达,模型就理解不了了。好在现在我们有相对简单的方法来解决这个问题,那就是使用优秀、有效的预训练语言表征模型,比如BERT。所有的输入句子首先要提取BERT表征,然后再进入后续的处理流程,模型就能对证据中的信息以及要判断的陈述中的信息都做出更准确的处理。

作者们在采集自维基百科的FEVER事实提取及验证数据集上对GEAR模型进行了测试,不仅真假判断的准确率可以比以往的模型提升3%到4%,而且这个模型在需要多条证据联合推理的样本中能够取得更好的效果。

基于证据图的聚合与推理框架&事实验证任务前沿进展

GEAR模型应用

GEAR模型有能力根据大量的文本材料判断给出的句子的真伪,它首先可以用来鉴别网络上的各种信息。尤其一些自媒体会编造各种吸引眼球、但并不真实的虚假信息,GEAR可以帮助网络媒体平台更快地核实并阻止虚假信息蔓延。 GEAR也可以为知识图补全、开放领域问答等任务进行知识库文本的验证,提升后续流程以及最终结果的准确性。

通过图结构的使用,GEAR模型有基于多条材料综合分析判断的能力。在这一点的基础上进行拓展,可以进一步开发出适用于别的场景的模型,比如将用户在不同平台上的行为数据看做“证据”,综合分析后有机会挖掘出更准确的用户属性, 从而对给出的用户行为进行“验证”,判断当前用户行为的可信度,从而对在线广告业务提供一定的帮助。

值得一提的是,由于GEAR模型的设计中用到了图神经网络的一些知识和方法,所以作者团队也撰写了一篇关于图神经网络的文献综述,梳理了现有的图神经网络模型的发展脉络、介绍了不同模型的特点、系统分类了不同模型的应用,并提出了这个方向未来发展需要面对的四个开放性问题。

详细阅读原文可见**《Graph Neural Networks: A Review of Methods and Applications》**。

Wiztalk是腾讯高校合作组织的系列产学融合知识分享讲座,鼓励用更加科普式的知识传播方式,讲解近代及当代技术发展中的大事件,让读者能够系统性了解在过去、现在、未来中,科学研究如何为人类的社会发展创造更多可能性。

点击链接,查看完整讲座

拓展阅读

【广告技术】揭秘!腾讯广告是如何有效划分用户群体的

【广告技术】用张量分解预测广告库存,广告投放更可靠!

追踪广告效果&保护用户隐私 —— 隐私集合交集算法可以得兼

【广告技术】使用图神经网络进行信息聚合与推理,解决多证据事实验证问题相关推荐

  1. 使用图神经网络预测药物-药物相互作用

    使用图神经网络预测药物-药物相互作用 了解药物如何相互作用是医学研究和实践的关键问题.图形机器学习(GraphML)领域可用于以高可信度回答有关药物 - 药物相互作用的问题.本次学习通过GraphSA ...

  2. 洋桃技术支持0004:注释信息出现乱码如何解决?

    洋桃技术支持0004:注释信息出现乱码如何解决? 提问: 杜老师,我复制洋桃教学视频中示例程序的代码,但注释信息本应显示中文的地方变成了乱码,这是什么原因? 解答: 由于KEIL是英国公司研发的,他们 ...

  3. 中科院、华为等提出Vision GNN,只使用图神经网络进行视觉任务

    ©作者 | 周春鹏 单位 | 浙江大学 研究方向 | 计算机视觉 网络结构在基于深度学习的计算机视觉系统中起着至关重要的作用.目前广泛应用的卷积神经网络和卷积神经转换器将图像视为网格或序列结构,难以灵 ...

  4. 【广告技术】如何提升定向广告效果?腾讯广告提出高质量负实例生成新方法

    基于CCF-腾讯犀牛鸟基金的平台支持,腾讯广告与清华大学李勇老师团队围绕分布式大规模推荐算法开展了深入的合作研究.双方最新的合作成果入选了信息检索和数据挖掘领域顶级学术会议之一ACM CIKM 202 ...

  5. 【广告技术】隐私集合交集运算结合同态加密,在保障数据安全的同时追踪广告效果

    [Wiztalk腾讯广告专场]系列分享来袭,第四期由南开大学计算机学院副院长.网络空间安全学院副院长刘哲理老师为大家深度介绍 <隐私集合交集算法研究>.在不久前由中国国际智能产业博览会组委 ...

  6. 清华周界详解《基于图神经网络的事实验证》 | 百万人学 AI

    事实验证任务要求相关系统能够从大规模的文本知识库中抽取相关的证据(Evidence)并根据这些证据对给定的声明(Claim)给出事实性的判断. 在本次报告中,讲者将介绍如何将图神经网络应用到事实验证任 ...

  7. 清华周界详解《基于图神经网络的事实验证》 | 百万人学AI

    事实验证任务要求相关系统能够从大规模的文本知识库中抽取相关的证据(Evidence)并根据这些证据对给定的声明(Claim)给出事实性的判断. 在本次报告中,讲者将介绍如何将图神经网络应用到事实验证任 ...

  8. Nat.Mach.Intell.|如何改进错义突变致病性预测?使用图注意神经网络试试

    编译 | 杨慧丹 审稿 | 赵宸 本文介绍一篇来自哥伦比亚大学Yufeng Shen的研究团队最近发表在Nature Machine intelligence期刊上的一项研究.作者提出了一种基于图注意 ...

  9. 论文浅尝 – KDD2020 | 使用图对比编码的图神经网络预训练模型

    论文笔记整理:陈名杨,浙江大学在读博士生,研究方向为知识图谱表示学习. 图表示学习是一个当前关注度较高的领域,并且有许多真实的应用.然而当前的很多图表示学习方法都是对一个领域或者某一个图训练一个模型, ...

最新文章

  1. numpy中的一些常见函数
  2. 零距离感受2015年安全***大赛:静动之美 ***兼备
  3. 黑马程序员:从零基础到精通的前端学习路线
  4. windows清理图标缓存并重新加载
  5. 这2个单片机编程的思想,请你掌握。
  6. visual studio 2017发布dotnet core到docker
  7. printstream_Java PrintStream clearError()方法与示例
  8. Maven学习(六)————企业Maven项目最佳实践
  9. MATLAB 6.封装 相频特性
  10. 微信名片 服务器繁忙,微信群发名片发不出去
  11. 网络分析工具——WireShark的使用(超详细)
  12. 汇编语言-实验6(学习打卡Day18)
  13. 生活的压力和生命的尊严,哪个更重要?
  14. vuejs中用require引入图片,出现ReferenceError: require is not defined
  15. DDD之实体与值对象区别
  16. 深度学习初学者必须知道的25个专业名词
  17. 360安全卫士造成Sharepoint文档库”使用资源管理器打开“异常
  18. 安装vs2013出现此预许可证已过期--解决办法
  19. 软件测试周刊(第17期):分歧比共识重要,为啥?
  20. unity 画球面_unity3d第一个例子--制作一个简单的球体碰撞墙面

热门文章

  1. SAP License:SAP HANA CLOUD MM 实施的坑
  2. SAP License:为什么新一代的财务产品不能从传统erp企业里长出来?
  3. 如何运用大数据进行信贷审批?
  4. 小程序 后台返回的对象数组(每个数组添加一个新的属性值)
  5. SpringBoot 利用过滤器Filter修改请求url地址
  6. 关注Ionic底部导航按钮tabs在android情况下浮在上面的处理
  7. 阿里云Ubuntu安装LNMP环境之Mysql
  8. SYBASE性能优化
  9. react-native 框架升级 安卓第三方插件报错 Android resource linking failed
  10. c++ primer随笔