概述

在知识表示学习方面,一个代表性的算法就是transe, 它的基本思想是把每一个实体和每一个关系都表示成一个低维的向量,它的想法是对于每一个事实,将其中的relation看成是从头实体到尾实体的一个翻译操作。

那么反应到语义空间里,实际上它的基本思想是在低维的空间里对每一个三元组建立头实体向量h加上关系relation的向量r等于尾实体向量t的目标(h+r=t)。也就是对于任何一个三元组的向量关系满足h+r=t的等式。通过不断的优化知识图谱中的每一个事实的优化目标,然后尽可能不断的减小loss function的值,这样就可以得到一个最优的关于实体和向量之间的表示。

一旦得到了实体和关系的表示就可以做非常多的事情,比如说想要预测任意两个实体间的关系,可以想象一下利用优化的目标(h+r=t),就可以用t减去h,去寻找t-h在这个空间里面最相邻的那些relation,就可以认为t-h之间的relation就是它的relation,也可以给定一个头实体和关系去预测尾实体,如下面的任务:

“想要知道电影《wall.e》有哪些风格?”
WALL-E , _has_genre, ?

这个任务就可以用 h+r,在这个空间里去寻找去寻找跟h加r最相近的实体,我们就可以找到这些实体:

* animation
* computer animation
* comedy film
* adventure film
* science fiction
* fantasy
* stop motion
* satire
* drama
* connecting

然后预测walle和_has_genre风格对应的实体候选,这个过程定义为链接预测。链接预测被看成是评测不同的知识表示学习方法的评测任务。

下图是TansE模型跟其他已有模型相比的优势:

首先从横坐标看,是分式表示的不同模型需要学习的参数数量,transe处于差不多最左侧,也就是说他需要学习的参数数量非常少,说明transe是一个非常高效的算法。

从纵轴上看TransE做链接预测的预言远远高于其他已有的方法。这说明它的模型复杂度非常小,同时它能够得到一个非常好的预测效果,这其实是我们梦寐以求希望达到的。

那么接下来看一些transe的一些样例:

如寻找任何一个实体在它的空间里最相邻的实体,上图中清华大学的一些相邻实体,基本上都是类似大学的教育机构,如AC米兰,他找到的基本上都是一些球队的名字。这正好反映了利用transe在空间里很好的建立起实体的语义信息,对它们进行表示。


上图中china找到的都是一些国家和地区的名字,巴拉克奥巴马找到的都是一些政治人物的名字,apple找到的是一些相关食品的名字,那么就说明transe可以非常好的建立这些实体的语义表示。

我们也可以看transe在寻找关系在空间里面相邻的关系的样例:

比如上图中nationality找的关系基本上还是能够比较好的反映这些关系之间的联系。

如果用头实体,一个relation去预测尾实体,下图中标红的是预测准确的尾实体。

可以看到有些任务可以做的非常好,比如china相邻的地区或者是国家,基本上能够把台湾和日本排得比较靠前,比如实体(巴拉克奥巴马)和(关系)他受教育的机构,虽然他把哥伦比亚大学排到了稍微靠后的位置,但是排到靠前的也都是一些大学名字。也就是说因为transe比较高效,由于他建立空间频繁,所以可能会有一定的错误。

但是transe可以比较好的找到那些潜在的正确答案,我们未来还可以再去利用一些更精确的做法,然后在这个候选集合里快速的定位到那些准确的答案。这是transe未来一个非常重要应用可能性。

【转】自然语言系列学习之表示学习与知识获取(四)TransE相关推荐

  1. 【转】自然语言系列学习之表示学习与知识获取(三)知识图谱

    分布式表示可以非常好的建立跨领域跨对象的知识迁移.有非常多的工作是去学习不同语言的各种词汇在同一个空间里统一的表示,这种表示对构建跨语言的知识迁移或者进行机器翻译都是非常重要的.此外有一个工作是试图建 ...

  2. 自然语言系列学习之表示学习与知识获取(七)利用关系路径进行关系抽取

    接下来介绍另外一个方向是如何更好的利用知识图库里关系路径的信息进行关系抽取. 有一个非常直观的例子介绍关系路径的好处,如电影阿甘正传(上图),我们如果想要知道阿甘正传的语言是什么,可以通它的电影导演是 ...

  3. 【转】自然语言系列学习之表示学习与知识获取(二)word2vec

    自然语言处理相关的对象包括词汇,词义,短语,实体,句子,文档,还有比如说社会网络,知识表示等等. 本文通过词汇表示的基本知识介绍分布式表示的基本的思想和特点. 在词汇表示方面的经典模型是2013年go ...

  4. 【转】自然语言系列学习之表示学习与知识获取(一)分布式表示

    研究表示学习跟人工智能很多领域研究对象有关,这些领域包括自然语言处理,数据挖掘,社会网络分析,多媒体处理等等,他们研究的对象包括 : 网络结构:用户及其关系和行为 媒体信息:文本,视频,语音等信息 知 ...

  5. 【转】自然语言系列学习之表示学习与知识获取(八)利用远程监督多实例的关系抽取

    下面介绍下如何利用远程监督多实例进行关系抽取.前文有提到到当利用文本进行关系抽取,基本思想是利用知识图谱中,如(下图)任意两个实体同时在句子中出现: 我们把句子当成是两个实体关系训练得样例,这样就可以 ...

  6. 自然语言系列学习之表示学习与知识获取(六)融合实体描述的知识表示和融合实体所在句子的知识表示

    利用文本信息还有还有另外一个非常重要的来源,就是来自于实体的描述,在知识库里对一些实体构建关于它的一个简单的介绍(short description). 这些简短的介绍,往往能够很好的反映实体的表示, ...

  7. 【转】自然语言系列学习之表示学习与知识获取(五)融合文本和知识,利用cnn方法进行关系抽取

    本文重点放在怎么利用知识表示学习,辅助我们进行关系抽取,首先介绍如何利用分布式表示去融合知识和文本进行文本的抽取. 前文提到利用知识图谱学习了知识表示,就可以预测任意两个实体之间的关系,它是通过t-h ...

  8. 面向自然语言处理的深度学习

    面向自然语言处理的深度学习 作者:[印]帕拉什·戈雅尔(Palash Goyal)苏米特·潘迪 出版时间:2019-02-18 出版社:机械工业出版社

  9. 自然语言处理与深度学习: 集智俱乐部活动笔记

    自然语言处理与深度学习: 集智俱乐部活动笔记 04 Jul 2016 目录 简介 自然语言处理的基本任务 对语言进行建模的若干方法 语言模型简介 N-gram 语言模型 基于神经网络的语言模型 语言的 ...

最新文章

  1. 技术人如何搭建自己的技术博客
  2. 技术人员如何创业《四》- 打造超强执行力团队(转载)
  3. WebService客户端开发(Axis2 1.5)
  4. 分布式任务调度平台XXL-JOB搭建使用
  5. 物联网大数据平台应具备的功能和特点
  6. JS性能优化 之 FOR循环
  7. JDK 13 的 12 个新特性,真心厉害和好用
  8. 修改linux的文件权限命令 chmod
  9. 干货!英语常用口语1000句大全(完整版)!
  10. 控制工程中的数学建模(4)——控制系统时域数学模型建立的一般步骤(之一)
  11. 定点运算之原码一位乘法
  12. 春节红包战:他们到底在争什么?
  13. Win10磁盘有很多磁盘0分区
  14. PAKE: Password-authenticated key agreement
  15. 离散数学-数理逻辑知识整理(修改版)
  16. 公有继承中 构造函数和析构函数的调用(包含内嵌子对象)
  17. 【Set】01-set参数
  18. 论文研读 Rotated Test Problems for Assessing the Performance of MOEAs
  19. 通过web修改AD账号密码(无需第三方工具)
  20. linux执行命令全称,Linux常用命令全称

热门文章

  1. 软件设计过程经验谈 之 如何做好领域模型设计
  2. 单点登录在项目中的实现 转.
  3. Extjs日期格式问题
  4. 在datatable中,在指定位置插入列
  5. Java Zip压缩实现(亲测)
  6. PHP中间件--ICE
  7. PHP如何复制前端传递的json数据
  8. jQuery的进行解决layui闪退的问题
  9. extjs5的grid垂直滚动条bug_Extjs grid panel 滚动条失效的解决方法
  10. python替换缺失值_python 缺失值处理(Imputation)