01

从浅显的文本处理走向推理和判断

随着自然语言处理(NLP)技术的逐渐发展成熟、文本语料数据的不断积累,我们能设计、训练出越来越强大的NLP模型,越来越多的语言相关任务也已经从人工转向了由NLP模型自动处理,各种语言互译的机器翻译就是最典型、最常见的例子。不过也有一些更高级的NLP应用需要的不仅是更多的语料数据,还需要更准确的语料数据,比如知识图谱建立、基于文本的开放问答,都需要文本语料真实、可信,才能得到好的结果。

在这样的背景下,**事实验证(Fact Verification)**这个问题近年来逐渐被重视起来。事实验证是指,给出一条陈述以后,要根据若干条线索判断这条陈述是“得到支持”的、“和证据不符”的、还是“信息不足无法判断”的,简单来说就是真假判断。

除了为其它的NLP应用服务以外,验明真伪这件事本身在这个自媒体发达、网络上的信息快速更新发酵的时代也有很大作用 —— 很多人根据大众的心理期待编造假消息,即便读者当时看得开心,但假消息始终都是不应当被鼓励的,也可能会对涉及到的人和事造成实际的伤害。

02

事实验证的难点

许多陈述的真假判断都需要基于多条不同的证据综合判断,这正是这个任务的难点。一个例子比如:

例1

陈述:电视剧《Giada at Home》只能通过购买DVD观看。

证据1:《Giada at Home》是一部Food电视台在2018年10月首映的电视剧。

证据2:Food电视台是一家美国的有线电视和卫星电视频道。

想要判断给出的这条陈述是否正确,不仅没法通过证据1或者证据2中的某一条单独判断,在联合运用这两条证据的时候也不那么简单,**需要根据两条证据之间的联系重新组织逻辑关系,**相当于构造出含有新的信息的新证据,然后再据此判断。

在实际的自动化检测中,我们的证据抽取模块并不能总是抽取出能够帮助验证的证据,它们往往会引入一些噪声,如何处理抽取证据中的噪声也是这个问题的另一个挑战,请看例2。

例2

陈述:Al Jardine 是一位美国节奏吉他手。

证据1:他最广为人知的身份是乐队的节奏吉他手,他偶尔也会在“Help Me, Rhonda”、“Then I Kissed Her”、“Come Go with Me”等单曲中担任主唱。

证据2:Alan Charles Jardine(1942年9月3日出生)是一位美国音乐家、歌手、作曲家,而且他和别人一同成立了The Beach Boys乐队。

证据3:2010年,Jardine 发布了他的首张个人独唱专辑,名为《A Postcard from California》。

证据4:1988年,Jardine 作为The Beach Boys乐队的一员入选了摇滚名人堂。

证据5:Ray Jardine,美国攀岩选手,轻装背包客,发明家,作家以及全球探者。

在这个例子中,只需要联合证据1、2就可以判断出给出的陈述是“得到支持”的,其它三条证据都派不上用场,而证据5甚至是另一个人物的相关介绍。

当前的大多数事实验证方法的处理能力并不理想,它们要么每次只能处理一条陈述和一条证据,要么只能简单地把不同的证据文本依次串联到一起(以便把多条证据合并为一条证据来处理),所以它们经常无法从线索中捕捉到足够多的关系和逻辑信息。

上面的例1和例2,都没办法单独根据某一条证据做出判断,简单把证据串联往往也会引入很多噪声,**模型必须要在理解语义、找到逻辑关系的基础上才能进行判断。**为了能够综合整合不同证据之间的有用信息、形成新的逻辑链条并完成判断,清华大学刘知远老师团队设计了一个运用图结构的GEAR模型,可以很好地完成复杂的事实验证任务。

03

在先进的语言表征下让逻辑关系开花结果

GEAR模型的全称是Graph-based Evidence Aggregating and Reasoning,正如其名,它的设计和运行基于图(graph),并且它能执行证据的聚合和推理

在GEAR模型中首先会构造一个全连接的证据图,并且鼓励证据之间传播信息。接着,模型会通过图注意力机制聚合证据片段,并通过一个分类器来判断现有证据对陈述的支持程度,**即“得到支持”、“和证据不符”、还是“信息不足无法判断”。**直觉上来说,只需要让证据中含有的信息做足够多的交换和推理,交汇的信息、有关联的逻辑链条就会自然浮现,这个模型就能够做出合理的判断了。用来聚合证据判断的注意力机制也能优先提取出含有有效信息的证据句子,避免被多余的、无关的证据句子干扰。

不过这还不够,自然语言毕竟具有一定的灵活性,同样的意思也许换一个方式表达,模型就理解不了了。好在现在我们有相对简单的方法来解决这个问题,那就是使用优秀、有效的预训练语言表征模型,比如BERT。所有的输入句子首先要提取BERT表征,然后再进入后续的处理流程,模型就能对证据中的信息以及要判断的陈述中的信息都做出更准确的处理。

作者们在采集自维基百科的FEVER事实提取及验证数据集上对GEAR模型进行了测试,不仅真假判断的准确率可以比以往的模型提升3%到4%,而且这个模型在需要多条证据联合推理的样本中能够取得更好的效果。

04

GEAR模型应用

GEAR模型有能力根据大量的文本材料判断给出的句子的真伪,它首先可以用来鉴别网络上的各种信息。尤其一些自媒体会编造各种吸引眼球、但并不真实的虚假信息,GEAR可以帮助网络媒体平台更快地核实并阻止虚假信息蔓延。GEAR也可以为知识图补全、开放领域问答等任务进行知识库文本的验证,提升后续流程以及最终结果的准确性。

通过图结构的使用,GEAR模型有基于多条材料综合分析判断的能力。在这一点的基础上进行拓展,可以进一步开发出适用于别的场景的模型,比如将用户在不同平台上的行为数据看做“证据”,综合分析后有机会挖掘出更准确的用户属性,从而对给出的用户行为进行“验证”,判断当前用户行为的可信度,从而对在线广告业务提供一定的帮助。

值得一提的是,由于GEAR模型的设计中用到了图神经网络的一些知识和方法,所以作者团队也撰写了一篇关于图神经网络的文献综述,梳理了现有的图神经网络模型的发展脉络、介绍了不同模型的特点、系统分类了不同模型的应用,并提出了这个方向未来发展需要面对的四个开放性问题。

详细阅读原文可见**《Graph Neural Networks: A Review of Methods and Applications》**。

(https://arxiv.org/abs/1812.08434)

关于GEAR模型技术细节的深入讲解,我们将邀请论文作者在Wiztalk系列学术视频中为大家详细介绍。敬请期待。

直播时间:6月23日 19:00

清华大学计算机系副教授、博士生导师刘知远老师将于今天在Wiztalk腾讯广告专题直播中为大家介绍基于图结构对多条证据进行建模,使用图神经网络进行多证据间信息聚合与推理,从而解决多证据事实验证问题。赶快扫描上方二维码或点击如下链接即可一键预约直播。想要了解更多广告技术相关直播内容,可点击腾讯广告算法大赛公众号主页底部菜单栏**【直播回放】观看课程回顾,get更多关于广告技术**的干货知识~

参与2020腾讯广告算法大赛的同学们注意啦!本次大赛的初赛阶段已经结束,复赛阶段将于6月23日12:00开启。在复赛阶段,选手们将会获得更多的训练数据,开启新一轮的挑战。算法征程,从未停止!赶快到腾讯广告算法大赛公众号2020赛况专区,获取最新的赛事快讯吧!

Wiztalk腾讯广告专场系列分享(三)

网络信息如此庞杂,人工智能助你验明真伪相关推荐

  1. 利用网络信息减少因果推断中的confounding bias--结合两种思路的新方法

    点击蓝字 关注我们 AI TIME欢迎每一位AI爱好者的加入! 本期AI TIME PhD专场,我们有幸邀请到了来自亚利桑那州立大学的博士生郭若城,为我们带来他的精彩分享--利用网络信息减少因果推断中 ...

  2. 招生简章 | 欢迎报考中科院空天院网络信息体系技术重点实验室(七室)

    官方公众号链接:招生简章 | 欢迎报考中科院空天院网络信息体系技术重点实验室(七室) 招生简章 | 欢迎报考中科院空天院网络信息体系技术重点实验室(七室) 中国科学院空天信息创新研究院(简称空天院)2 ...

  3. 人工智能助推精准医疗时代

    随着科技的进步与复杂化,AI已经不知不觉地进入了医学界,AI技术被视为医疗界的得力助手,凭借智能来对抗各种疑难病症.精准医疗(Precision Medicine)是一种将个人基因.环境与生活习惯差异 ...

  4. 智能语音储备战升级 人工智能助产业快速增长

    8月3日,搜狗发布搜狗语音交互引擎知音,其不仅"能听会说",还具有"能理解会思考"的能力.无独有偶,7月底,四川长虹(600839,股吧)宣布公司全面进军人工智 ...

  5. win10安装虚拟机提示主IP地址显示网络信息不可用

    问题:在虚拟机详情下面显示 主ip地址:网络信息不可用 解决方案 先root用户[root@localhost~]#cd - [root@localhost/]#cd /etc/sysconfig/n ...

  6. 宁夏启动人工智能助推教师队伍建设行动

    中新网银川1月22日电 (于翔 李佩珊)1月22日,宁夏人工智能助推教师队伍建设行动试点工作启动会在宁夏石嘴山市举行,标志着人工智能助推教师队伍建设工作在全国启动. 宁夏和北京外国语大学是全国首批两家 ...

  7. linux netstat 查看网络信息 实例 状态说明

    状态 TCP三次握手的过程如下: 主动连接端发送一个SYN包给被动连接端: 被动连接端收到SYN包后,发送一个带ACK和SYN标志的包给主动连接端: 主动连接端发送一个带ACK标志的包给被动连接端,握 ...

  8. 【Android 逆向】Android 逆向方法 ( 静态逆向解析 | 函数调用分析 | 动态运行跟踪 | 运行日志分析 | 文件格式解析 | 敏感信息分析 | 网络信息监控 | 环境伪装模拟 )

    文章目录 一.Android 逆向方法 1.静态逆向解析 2.函数调用分析 3.动态运行跟踪 4.运行日志分析 5.文件格式解析 6.敏感信息分析 7.网络信息监控 8.软件动态调试 9.环境伪装模拟 ...

  9. Linux编程获取网络信息总结

    Linux下C获取所有可用网卡信息 在Linux下开发网络程序时,经常会遇到需要取本地网络接口名.IP.广播地址 .子网掩码或者MAC地址等信息的需求,最常见的办法是配合宏SIOCGIFHWADDR. ...

最新文章

  1. zen-cart首页能否在中间栏显示“所有商品”?
  2. SpringBoot 中配置加载优先级
  3. jsp整合mybatis案例
  4. primefaces_PrimeFaces 5.0 DataTable列切换器
  5. 20172314 2018-2019-1《程序设计与数据结构》第一周学习总结
  6. gdal java api_Java使用GDAL库
  7. 缓存,确实很香,却也很受伤!
  8. React个人入门总结《五》
  9. 卡尔曼滤波的基本原理
  10. 智慧楼宇管理后台、运维配置、设备台账、设备管理、维保统计、巡检统计、维修工单、报修统计、电子巡更、智能楼宇运营、运营后台、智慧社区、楼宇设备监控管理端、智能社区管理系统、楼宇运维管理系统
  11. Asp.NET Core2.0 EF ABP Postgresql 数据迁移
  12. 《代码整洁之道:程序员的职业素养》一一1.1 清楚你要什么
  13. 在Python27中运行pip install dlib装载库dlib所引起的问题解决
  14. 矩阵基础11- 广义逆矩阵及应用
  15. 计算机相关扩展活动战队名字,有诗意的战队名字大全
  16. yum安装报错No package xxx available
  17. HDFS数据加密空间--Encryption zone
  18. 在Unity Shader中实现漫反射光照模型(逐顶点漫反射光照、逐像素漫反射光照、半兰伯特光照)
  19. 德赛西威全球首发“Smart Solution”智能出行解决方案
  20. 五则运算c语言程序,C语言算术运算示例程序

热门文章

  1. SAP License:对煤化工行业的几点思考
  2. SAP License:SAP FI/CO—Questions and Answers
  3. SAP License:SAP电话面试
  4. Asp .Net Mvc在DeBug模式下设置自定义IP
  5. NOIP 贪心 国王游戏
  6. mysql查询当天数据(上周、本月、上个月、距离当前现在6个月的数据)
  7. 【BZOJ】1969: [Ahoi2005]LANE 航线规划
  8. 《java系统性能调优》--1.发现瓶颈
  9. redis DB操作
  10. [bbk2228] 第41集 - Chapter 11-SQL Statement Tuning(00)