萧箫 发自 凹非寺
量子位 报道 | 公众号 QbitAI

还在担心大语言模型“啥都吃”,结果被用假信息训练了?

放在以前,这确实是训练NLP模型时值得担心的一个难题。

现在,谷歌从根本上解决了这个问题。

他们做了个名为TEKGEN的AI模型,直接将知识图谱用“人话”再描述一遍,生成语料库,再喂给NLP模型训练。

这是因为,知识图谱的信息来源往往准确靠谱,而且还会经过人工筛选、审核,质量有保障

目前,这项研究已经被NAACL 2021接收。

如何让AI用“人话”描述知识图谱?

谷歌用来描述知识图谱的TEKGEN模型,全名Text from KG Generator(知识图谱文本生成器)。

它会读取一个知识图谱中的所有词语,捋清它们之间的关系,再用“人话”说出来。

从下图中来看,转换语句分为2步:

首先,将关系图谱中的词语,按逻辑进行排列;然后,再添加一些词语、并调整语句间的逻辑关系,将它们变成一段完整的话。

为了实现这个功能,TEKGEN包含4部分:

  • 三元组(包含主语、宾语、关系词)生成器。将维基百科的知识图谱、和维基百科文本描述进行对应,生成训练数据集。

  • T5的文本-文本生成器,用于将三元组转换成文本信息。

  • 实体子图创建器。用于将三元组中的文本信息转换成语句。

  • 语义质量滤波器。这部分用来处理低质量的输出,保证生成的语句质量。

整体来看,用TEKGEN生成语句的流程是这样的:

生成后的语句,就能用来放心地训练大语言模型了。

这份生成的语料库,由4500万个三元组生成,组合起来的句子有1600万句。

那么,用这个语料库训练的NLP模型,是否真能取得更好的效果呢?

“满分5分,人类给它4.3分”

先来看几个连词成句的实例效果。

从输入的词语来看,只有主语、宾语,以及这两个词语之间的关系。

但TEKGEN似乎“”出了什么,很快就将这些句子组合成了一段正常的语句。

不仅时间、地点、从属关系等分得非常清楚,逻辑上也符合我们平时说话的语序。

那么,满分5分的话,人类对于AI的“图文转换”能力给出几分呢?

谷歌找了些志愿者来进行测评,从结果来看,TEKGEN在“语义”和“流畅度”两方面,均取得了4.3分以上的好成绩。

当然,这里面也用LAMA(LAnguage Model Analysis) probe,来对用这个语料库训练的模型进行了评估。

在Google-RE和TREx两个数据集上,经过预训练的模型,在各项任务上均取得了非常好的效果。

说不定,将来真能让AI去试试高考语文的“图文转换”题:

作者介绍

论文一作小姐姐Oshin Agarwal,是宾夕法尼亚大学的计算机系在读博士生,研究方向是自然语言处理中的信息抽取。

这篇论文,是她在谷歌实习期间完成的。

来自谷歌的Heming Ge、Siamak Shakeri和Rami Al-Rfou也参与了这项工作。

目前,作者们已经将这个用知识图谱生成的语料库放了出来。

想要训练NLP模型的小伙伴,可以用起来了~

论文地址:
https://arxiv.org/abs/2010.12688

用知识图谱生成的语料库:
https://github.com/google-research-datasets/KELM-corpus

参考链接:
https://ai.googleblog.com/2021/05/kelm-integrating-knowledge-graphs-with.html

担心GPT-3被喂假消息?谷歌新研究,将知识图谱转成“人话”用于训练丨NAACL 2021...相关推荐

  1. NAACL 2021 | 担心GPT-3被喂假消息?谷歌新研究,将知识图谱转成“人话”用于训练...

    点击上方"视学算法",选择加"星标"或"置顶" 重磅干货,第一时间送达 萧箫 发自 凹非寺 量子位 报道 | 公众号 QbitAI 还在担心 ...

  2. 谷歌新研究对神经网络数据并行性提出质疑

    https://www.toutiao.com/a6670724671169626636/ 在训练神经网络时,并行计算和模型并行是很常用的方法,以最大限度地利用有限的算力.然而,谷歌的一项新研究表明, ...

  3. 照片你随便拍,「光影」我任意调,MIT谷歌新研究,器材党老法师看了会沉默...

    金磊 发自 凹非寺 量子位 报道 | 公众号 QbitAI 在摄影这件事上,「光影」简直不要太重要. 毕竟大师们摄影作品,大多都是对「光」和「影」的拿捏. △来自俄罗斯摄影师George Mayer ...

  4. 前员工揭内幕:10年了,为何谷歌还搞不定知识图谱?\n

    近日,前谷歌开发者.现Dgraph创始人Manish Rai Jain撰文揭秘了谷歌内部在知识图谱领域的探索和发展.他以一个开发和技术前驱者的视角论述了"为什么谷歌需要一个知识图谱系统&qu ...

  5. 用ChatGPT控制NPC,行动逼真到像正常人!斯坦福谷歌新研究炸场,赋予大模型准确记忆力...

    萧箫 发自 凹非寺 量子位 | 公众号 QbitAI 放任25个AI共同生活,他们竟然模拟起了人类的行动! 不仅像人一样起床.刷牙.吃饭.睡觉,还会被迫"出门打工",甚至在闲暇时分 ...

  6. AI眼中的世界是什么样子?谷歌新研究找到了机器的视觉概念

    选自arXiv 作者:Amirata Ghorbani等 机器之心编译 参与:魔王 来自斯坦福大学和谷歌大脑的研究人员为基于概念的解释方法提出了一些原则和要求,在整个数据集上识别更高层次的人类可理解概 ...

  7. Hinton领衔谷歌大脑新研究,拯救被认成步枪的乌龟

    栗子 安妮 编译整理 量子位 出品 | 公众号 QbitAI 最近,深度学习之父Geoffrey Hinton带领的谷歌大脑团队,提出了一种防御对抗攻击的新方法. 一种叫作DARCCC的技术,能将重构 ...

  8. 谷歌新研究:基于数据共享的神经网络快速训练方法

    作者 | Google Brain 译者 | 凯隐 责编 | 夕颜 出品 | AI科技大本营(ID:rgznai100) 导读:神经网络技术的普及离不开硬件技术的发展,GPU 和 TPU 等硬件型训练 ...

  9. 人人车“破产”? 官方:假消息且存在人为故意传播

    相关新闻:直击|人人车回应"破产"传闻:消息不实 新浪科技讯 2月18日下午消息,今日有消息称,汽车交易服务平台人人车宣布破产,目前已通知所有员工离职.对此,人人车官方辟谣称,均为 ...

最新文章

  1. mysql-mha高可用
  2. 揭露男生的真实心理年龄测试软件,心理年龄测试
  3. [数分提高]2014-2015-2第7教学周第2次课 (2015-04-16)
  4. mysql dba 试题_mysql dba面试题及答案.docx
  5. svn 自动同步到web站点目录post-commit.bat
  6. 学习笔记15-C语言-预处理指令、条件编译、头文件
  7. Linux centos 使用yum安装MySQL
  8. Mobicents记录1:如何搭建和运行mobicents3.0环境(基于jboss7.2)
  9. f分布表完整图a=0.01_Matlab中的数据分析之概率分布与检验实例讲解
  10. 心理学计算机交叉就业,拥有着全美最高年薪?心理学专业介绍及就业前景解析...
  11. 谷歌最新版本浏览器如何兼容flash插件
  12. 信息录入率百分百上海强化施工现场建筑工人实名制管理
  13. Hit Refresh读书摘要
  14. 一个基于UDP数据广播的局域网络会议程序
  15. (一)Gluster 介绍及简单部署
  16. android 触摸 唤醒屏幕,android 怎么通过触摸屏幕来唤醒屏幕。
  17. 不能共情你还当什么领导
  18. labview界面设计之颜色使用(转)
  19. 我来说说百度的问题吧。。别和谐就行。
  20. 独家 | 蚂蚁金服漆远首谈刚完成的AI重大突破及紧缺人才,呼吁国内多点技术性强的大会,少点网红

热门文章

  1. 如何正确强制执行Git推送?
  2. Oracle undo表空间
  3. 50年前就已讨论的数据中心隐私问题
  4. Python高级特性(切片,迭代,列表生成式,生成器,迭代器)
  5. 二、JavaWeb总结:Tomcat服务器的学习和使用
  6. response.redirect 正在中止线程
  7. Microsoft MSDN Windows 8 各版本下载
  8. windows主要鼠标消息
  9. python3实现zip格式压缩文件夹
  10. react-native bundle --platform android --dev false --entry-file index.android.js --bundle-output and