【广告技术】使用图神经网络进行信息聚合与推理，解决多证据事实验证问题

【Wiztalk腾讯广告专场】系列分享来袭，第三期由清华大学计算机系副教授、博士生导师刘知远老师与清华大学计算机系硕士生周界为大家深度介绍 《基于图结构的事实验证》。

从浅显的文本处理走向推理和判断

随着自然语言处理（NLP）技术的逐渐发展成熟、文本语料数据的不断积累，我们能设计、训练出越来越强大的NLP模型，越来越多的语言相关任务也已经从人工转向了由NLP模型自动处理，各种语言互译的机器翻译就是最典型、最常见的例子。不过也有一些更高级的NLP应用需要的不仅是更多的语料数据，还需要更准确的语料数据，比如知识图谱建立、基于文本的开放问答，都需要文本语料真实、可信，才能得到好的结果。

在这样的背景下，**事实验证（Fact Verification）**这个问题近年来逐渐被重视起来。事实验证是指，给出一条陈述以后，要根据若干条线索判断这条陈述是“得到支持”的、“和证据不符”的、还是“信息不足无法判断”的，简单来说就是真假判断。

除了为其它的NLP应用服务以外，验明真伪这件事本身在这个自媒体发达、网络上的信息快速更新发酵的时代也有很大作用 —— 很多人根据大众的心理期待编造假消息，即便读者当时看得开心，但假消息始终都是不应当被鼓励的，也可能会对涉及到的人和事造成实际的伤害。

事实验证的难点

许多陈述的真假判断都需要基于多条不同的证据综合判断，这正是这个任务的难点。一个例子比如：

例1：
陈述： 电视剧《Giada at Home》只能通过购买DVD观看。
证据1：《Giada at Home》是一部Food电视台在2018年10月首映的电视剧。
证据2： Food电视台是一家美国的有线电视和卫星电视频道。

想要判断给出的这条陈述是否正确，不仅没法通过证据1或者证据2中的某一条单独判断，在联合运用这两条证据的时候也不那么简单，需要根据两条证据之间的联系重新组织逻辑关系， 相当于构造出含有新的信息的新证据，然后再据此判断。

在实际的自动化检测中，我们的证据抽取模块并不能总是抽取出能够帮助验证的证据，它们往往会引入一些噪声，如何处理抽取证据中的噪声也是这个问题的另一个挑战，请看例2。

例2：
陈述： Al Jardine 是一位美国节奏吉他手。
证据1： 他最广为人知的身份是乐队的节奏吉他手，他偶尔也会在“Help Me, Rhonda”、“Then I Kissed Her”、“Come Go with Me”等单曲中担任主唱。
证据2： Alan Charles Jardine（1942年9月3日出生）是一位美国音乐家、歌手、作曲家，而且他和别人一同成立了The Beach Boys乐队。
证据3： 2010年，Jardine 发布了他的首张个人独唱专辑，名为《A Postcard from California》。
证据4： 1988年，Jardine 作为The Beach Boys乐队的一员入选了摇滚名人堂。
证据5： Ray Jardine，美国攀岩选手，轻装背包客，发明家，作家以及全球探者。

在这个例子中，只需要联合证据1、2就可以判断出给出的陈述是“得到支持”的，其它三条证据都派不上用场，而证据5甚至是另一个人物的相关介绍。

当前的大多数事实验证方法的处理能力并不理想，它们要么每次只能处理一条陈述和一条证据，要么只能简单地把不同的证据文本依次串联到一起（以便把多条证据合并为一条证据来处理），所以它们经常无法从线索中捕捉到足够多的关系和逻辑信息。

上面的例1和例2，都没办法单独根据某一条证据做出判断，简单把证据串联往往也会引入很多噪声，模型必须要在理解语义、找到逻辑关系的基础上才能进行判断。 为了能够综合整合不同证据之间的有用信息、形成新的逻辑链条并完成判断，清华大学刘知远老师团队 设计了一个运用图结构的GEAR模型，可以很好地完成复杂的事实验证任务。

事实验证任务简介

在先进的语言表征下让逻辑关系开花结果

GEAR模型的全称是Graph-based Evidence Aggregating and Reasoning， 正如其名，它的设计和运行基于图（graph），并且它能执行证据的聚合和推理。

在GEAR模型中首先会构造一个全连接的证据图，并且鼓励证据之间传播信息。接着，模型会通过图注意力机制聚合证据片段，并通过一个分类器来判断现有证据对陈述的支持程度，即“得到支持”、“和证据不符”、还是“信息不足无法判断”。 直觉上来说，只需要让证据中含有的信息做足够多的交换和推理，交汇的信息、有关联的逻辑链条就会自然浮现，这个模型就能够做出合理的判断了。用来聚合证据判断的注意力机制也能优先提取出含有有效信息的证据句子，避免被多余的、无关的证据句子干扰。

不过这还不够，自然语言毕竟具有一定的灵活性，同样的意思也许换一个方式表达，模型就理解不了了。好在现在我们有相对简单的方法来解决这个问题，那就是使用优秀、有效的预训练语言表征模型，比如BERT。所有的输入句子首先要提取BERT表征，然后再进入后续的处理流程，模型就能对证据中的信息以及要判断的陈述中的信息都做出更准确的处理。

作者们在采集自维基百科的FEVER事实提取及验证数据集上对GEAR模型进行了测试，不仅真假判断的准确率可以比以往的模型提升3%到4%，而且这个模型在需要多条证据联合推理的样本中能够取得更好的效果。

基于证据图的聚合与推理框架&事实验证任务前沿进展

GEAR模型应用

GEAR模型有能力根据大量的文本材料判断给出的句子的真伪，它首先可以用来鉴别网络上的各种信息。尤其一些自媒体会编造各种吸引眼球、但并不真实的虚假信息，GEAR可以帮助网络媒体平台更快地核实并阻止虚假信息蔓延。 GEAR也可以为知识图补全、开放领域问答等任务进行知识库文本的验证，提升后续流程以及最终结果的准确性。

通过图结构的使用，GEAR模型有基于多条材料综合分析判断的能力。在这一点的基础上进行拓展，可以进一步开发出适用于别的场景的模型，比如将用户在不同平台上的行为数据看做“证据”，综合分析后有机会挖掘出更准确的用户属性， 从而对给出的用户行为进行“验证”，判断当前用户行为的可信度，从而对在线广告业务提供一定的帮助。

值得一提的是，由于GEAR模型的设计中用到了图神经网络的一些知识和方法，所以作者团队也撰写了一篇关于图神经网络的文献综述，梳理了现有的图神经网络模型的发展脉络、介绍了不同模型的特点、系统分类了不同模型的应用，并提出了这个方向未来发展需要面对的四个开放性问题。

详细阅读原文可见**《Graph Neural Networks: A Review of Methods and Applications》**。

Wiztalk是腾讯高校合作组织的系列产学融合知识分享讲座，鼓励用更加科普式的知识传播方式，讲解近代及当代技术发展中的大事件，让读者能够系统性了解在过去、现在、未来中，科学研究如何为人类的社会发展创造更多可能性。

点击链接，查看完整讲座

拓展阅读

【广告技术】揭秘！腾讯广告是如何有效划分用户群体的

【广告技术】用张量分解预测广告库存，广告投放更可靠！

追踪广告效果&保护用户隐私 —— 隐私集合交集算法可以得兼