NAACL 2021 | 担心GPT-3被喂假消息?谷歌新研究,将知识图谱转成“人话”用于训练...
点击上方“视学算法”,选择加"星标"或“置顶”
重磅干货,第一时间送达
萧箫 发自 凹非寺
量子位 报道 | 公众号 QbitAI
还在担心大语言模型“啥都吃”,结果被用假信息训练了?
放在以前,这确实是训练NLP模型时值得担心的一个难题。
现在,谷歌从根本上解决了这个问题。
他们做了个名为TEKGEN的AI模型,直接将知识图谱用“人话”再描述一遍,生成语料库,再喂给NLP模型训练。
这是因为,知识图谱的信息来源往往准确靠谱,而且还会经过人工筛选、审核,质量有保障。
目前,这项研究已经被NAACL 2021接收。
如何让AI用“人话”描述知识图谱?
谷歌用来描述知识图谱的TEKGEN模型,全名Text from KG Generator(知识图谱文本生成器)。
它会读取一个知识图谱中的所有词语,捋清它们之间的关系,再用“人话”说出来。
从下图中来看,转换语句分为2步:
首先,将关系图谱中的词语,按逻辑进行排列;然后,再添加一些词语、并调整语句间的逻辑关系,将它们变成一段完整的话。
为了实现这个功能,TEKGEN包含4个部分:
三元组(包含主语、宾语、关系词)生成器。将维基百科的知识图谱、和维基百科文本描述进行对应,生成训练数据集。
T5的文本-文本生成器,用于将三元组转换成文本信息。
实体子图创建器。用于将三元组中的文本信息转换成语句。
语义质量滤波器。这部分用来处理低质量的输出,保证生成的语句质量。
整体来看,用TEKGEN生成语句的流程是这样的:
生成后的语句,就能用来放心地训练大语言模型了。
这份生成的语料库,由4500万个三元组生成,组合起来的句子有1600万句。
那么,用这个语料库训练的NLP模型,是否真能取得更好的效果呢?
“满分5分,人类给它4.3分”
先来看几个连词成句的实例效果。
从输入的词语来看,只有主语、宾语,以及这两个词语之间的关系。
但TEKGEN似乎“悟”出了什么,很快就将这些句子组合成了一段正常的语句。
不仅时间、地点、从属关系等分得非常清楚,逻辑上也符合我们平时说话的语序。
那么,满分5分的话,人类对于AI的“图文转换”能力给出几分呢?
谷歌找了些志愿者来进行测评,从结果来看,TEKGEN在“语义”和“流畅度”两方面,均取得了4.3分以上的好成绩。
当然,这里面也用LAMA(LAnguage Model Analysis) probe,来对用这个语料库训练的模型进行了评估。
在Google-RE和TREx两个数据集上,经过预训练的模型,在各项任务上均取得了非常好的效果。
说不定,将来真能让AI去试试高考语文的“图文转换”题:
作者介绍
论文一作小姐姐Oshin Agarwal,是宾夕法尼亚大学的计算机系在读博士生,研究方向是自然语言处理中的信息抽取。
这篇论文,是她在谷歌实习期间完成的。
来自谷歌的Heming Ge、Siamak Shakeri和Rami Al-Rfou也参与了这项工作。
目前,作者们已经将这个用知识图谱生成的语料库放了出来。
想要训练NLP模型的小伙伴,可以用起来了~
论文地址:
https://arxiv.org/abs/2010.12688
用知识图谱生成的语料库:
https://github.com/google-research-datasets/KELM-corpus
参考链接:
https://ai.googleblog.com/2021/05/kelm-integrating-knowledge-graphs-with.html
— 完 —
本文系网易新闻•网易号特色内容激励计划签约账号【量子位】原创内容,未经账号授权,禁止随意转载。
点个在看 paper不断!
NAACL 2021 | 担心GPT-3被喂假消息?谷歌新研究,将知识图谱转成“人话”用于训练...相关推荐
- 担心GPT-3被喂假消息?谷歌新研究,将知识图谱转成“人话”用于训练丨NAACL 2021...
萧箫 发自 凹非寺 量子位 报道 | 公众号 QbitAI 还在担心大语言模型"啥都吃",结果被用假信息训练了? 放在以前,这确实是训练NLP模型时值得担心的一个难题. 现在,谷歌 ...
- CIKM 2021 | FKGE:差分隐私的联邦知识图谱嵌入
本文介绍我们最近的一项被CIKM 2021录用的工作<Differentially Private Federated Knowledge Graphs Embedding>: Paper ...
- CIKM 2021 | DISENKGAT:知识图谱解耦表征学习
©PaperWeekly 原创 · 作者 | 吴俊康 学校 | 中国科学技术大学硕士生 研究方向 | 信息检索 论文标题: DisenKGAT: Knowledge Graph Embedding w ...
- 人人车“破产”? 官方:假消息且存在人为故意传播
相关新闻:直击|人人车回应"破产"传闻:消息不实 新浪科技讯 2月18日下午消息,今日有消息称,汽车交易服务平台人人车宣布破产,目前已通知所有员工离职.对此,人人车官方辟谣称,均为 ...
- 华人小哥开发“黑话”数据集,AI:你连dbq都不知道,xswl!| NAACL 2021
点击上方"视学算法",选择加"星标"或"置顶" 重磅干货,第一时间送达 子豪 发自 凹非寺 量子位 报道 | 公众号 QbitAI 提到&q ...
- 这年头,机器翻译都会通过文字脑补画面了 | NAACL 2021
博雯 发自 凹非寺 量子位 报道 | 公众号 QbitAI 现在,想象一个外国人面前摆了句「金石迸碎荡尘埃,磐山纡水尽为开」. 除了痛苦地死抠复杂单词和长难句语法,他还能怎么去理解这句话呢? --想象 ...
- NAACL 2021 | QA-GNN:基于语言模型和知识图谱的问答推理
©PaperWeekly 原创 · 作者|刘兴贤 学校|北京邮电大学硕士生 研究方向|自然语言处理 论文标题: QA-GNN: Reasoning with Language Models and K ...
- 【论文解读】NAACL 2021 对比自监督学习的上下文和一般句子表征:以篇章关系分析为例
前言 本文是NAACL 2021的论文<Contextualized and Generalized Sentence Representations by Contrastive Self-S ...
- 医学自然语言处理(NLP)相关论文汇总之 NAACL 2021
医学自然语言处理(NLP)相关论文汇总之 NAACL 2021 [写在前面]NAACL2021前段时间已经放榜,自己抽时间整理了一下该会议在医疗自然语言处理方向上的相关论文,放在这里,希望对大家有一定 ...
最新文章
- Centos7 配置静态ip地址
- AndroidStudio Gradle自定义属性xmlns无法识别
- 计算机的硬盘和光盘数,磁盘与光盘介绍-计算机组成原理与汇编语言-电子发烧友网站...
- [LeetCode] 143. Reorder List_Middle tag: Linked List
- Beacon API
- 实现三栏布局的几种方法
- 经典排序算法(十四)--梳排序Comb Sort
- 手游开发之lua的class函数详解
- 层次分析法详细讲解(小白必看电脑查看)
- python语义网络图_语义网络 (Knowledge Graph)知识图谱
- Android 最常用的设计模式五 安卓源码分析——建造者模式
- docker操作记录-5
- 弄懂了阴阳转换,穴位或为丹田的宿
- [财务][数据化分析][财务背景知识][财务三张基础表][资产负债表][利润表][现金流量表]看懂财务三张表,以后看表再也不求人了...
- 直角坐标和求坐标的转换详解-关于球坐标转换为直角坐标正负号相反问题
- 解决‘vue‘ 不是内部或外部命令,也不是可运行的程序 或批处理文件的方法
- PYTHON编码转换小记
- 英文星期的来历(都是来自神人)
- for循环下标越界java_java下标越界问题
- 牛客SQL 大厂面试真题 某滴打车 6套代码及解析
热门文章
- 世上最伟大的十个公式,1+1=2排名第七,质能方程排名第五
- linux系统与内核,[科普] Linux 的内核与 Linux 系统之间的关系
- python launcher怎么使用_QMUI实战(一)—为何我们要使用 LauncherActivity?
- 微软语音扩展全球语言支持,发布160个新声音
- 两个使用 Pandas 读取异常数据结构 Excel 的方法,拿走不谢!
- ST-GCN 实现人体姿态行为分类
- 倪光南院士:openEuler与全球开发者共同推动计算产业发展
- 最近很火的最新一代国际视频标准 VVC 到底是什么?阿里专家为你揭秘
- 超轻量级中文OCR,支持竖排文字识别、ncnn推理,总模型仅17M
- 解密Elasticsearch技术,腾讯开源的万亿级分布式搜索分析引擎