本文重点放在怎么利用知识表示学习,辅助我们进行关系抽取,首先介绍如何利用分布式表示去融合知识和文本进行文本的抽取。

前文提到利用知识图谱学习了知识表示,就可以预测任意两个实体之间的关系,它是通过t-h(r~t-h)来预测relation。关于两个实体之间的关系预测,常用的做法是基于文本形式,它的基本思想是任意给出两个实体到大规模的文本里面去寻找同时出现这两个实体的句子,那我们就认为同时出现两个实体的句子,能够反映这两个实体的特征。那么我们从这些句子里抽取特征,然后就可以建立起这种关系的分类模型,它是基于文本的信息进行关系预测的思想。

在文本上进行关系抽取方面最新或者最好的方法,是2014年由中科院自动化所赵军老师和刘康老师团队所研制的一系列基于深度学习的方法。

他们在2014年COLING(计算语言学国际会议:International Conference on Computational Linguistics,COLING)上,并且获得最佳论文奖,论文中基本思想是给定两个实体同时出现的句子,利用Convolutional neural network卷积神经网络自动的学习句子的低维向量表示,论文中认为这个句子的低维向量表示能够很好的反应这个句子里面所表示的两个实体之间的关系,通过把低维向量表示当成这个句子的一个特征,那我们就可以构建句子基于文本关系的分类模型,这是利用cnn进行文本关系抽取的技术细节。

前面提到利用分布式表示学习,我们可以有效的融合不同领域不同对象之间的语义信息,其实也是希望通过这种分布式表示去融合文本和知识来进行关系的抽取。


例如上图中的三元组,里面的每一个实体,头实体和尾实体,他们的实体向量既可以用来knowledge graph(知识图谱)的学习,也可以在文本端参与文本里的word vector 的学习 ,同样在三元组里关系向量的学习,一方面可以参与knowledge graph(知识图谱)的transe的学习,同时它还可以参与到基于文本cnn(如上图,神经网络)的表示进行预测,这样就可以利用分布式表示,然后建立起文本和知识的信息联合的学习,从而得到更好的关于实体关系的表示来进行实体关系之间的抽取。


我们在关系抽取上进行评测方法就是利用precision-recall(Precision,准确率/查准率。Recall,召回率/查全率。这两个指标分别以两个角度衡量分类系统的准确率)曲线,它的基本思想是有非常多的候选实体的对,然后利用算法预测它们之间的关系,并利用算法给每一个实体对在每一个可能的关系上打分,这样每个实体对跟不同关系构建的三元组(triple) 就可以进行排序。所有的triple按照顺序评价,排在最前面的triple被预测实体之间关系的准确率会更高一点。

所以每一条方法所对应的曲线都是从rank list里第一位开始往下看,预测准确情况对标准答案的情况形成一条曲线,这条曲线一般随着rank list往下看,它的准确率会越来越低,那么同时recall也会变得越来越高。上图中下方粉色线是利用cnn方法通过文本信息进行关系抽取的效果。

通过上图看出,如果能够把知识图谱里的信息通过transe的方式融合进来。实际上会极大提升关系抽取的效果,

这也充分说明充分利用知识图谱里已有的知识,并用transe进行表示,它对关系抽取有非常大的帮助。

【转】自然语言系列学习之表示学习与知识获取(五)融合文本和知识,利用cnn方法进行关系抽取相关推荐

  1. 自然语言系列学习之表示学习与知识获取(六)融合实体描述的知识表示和融合实体所在句子的知识表示

    利用文本信息还有还有另外一个非常重要的来源,就是来自于实体的描述,在知识库里对一些实体构建关于它的一个简单的介绍(short description). 这些简短的介绍,往往能够很好的反映实体的表示, ...

  2. 【转】自然语言系列学习之表示学习与知识获取(三)知识图谱

    分布式表示可以非常好的建立跨领域跨对象的知识迁移.有非常多的工作是去学习不同语言的各种词汇在同一个空间里统一的表示,这种表示对构建跨语言的知识迁移或者进行机器翻译都是非常重要的.此外有一个工作是试图建 ...

  3. 自然语言系列学习之表示学习与知识获取(七)利用关系路径进行关系抽取

    接下来介绍另外一个方向是如何更好的利用知识图库里关系路径的信息进行关系抽取. 有一个非常直观的例子介绍关系路径的好处,如电影阿甘正传(上图),我们如果想要知道阿甘正传的语言是什么,可以通它的电影导演是 ...

  4. 【转】自然语言系列学习之表示学习与知识获取(八)利用远程监督多实例的关系抽取

    下面介绍下如何利用远程监督多实例进行关系抽取.前文有提到到当利用文本进行关系抽取,基本思想是利用知识图谱中,如(下图)任意两个实体同时在句子中出现: 我们把句子当成是两个实体关系训练得样例,这样就可以 ...

  5. 【转】自然语言系列学习之表示学习与知识获取(二)word2vec

    自然语言处理相关的对象包括词汇,词义,短语,实体,句子,文档,还有比如说社会网络,知识表示等等. 本文通过词汇表示的基本知识介绍分布式表示的基本的思想和特点. 在词汇表示方面的经典模型是2013年go ...

  6. 【转】自然语言系列学习之表示学习与知识获取(一)分布式表示

    研究表示学习跟人工智能很多领域研究对象有关,这些领域包括自然语言处理,数据挖掘,社会网络分析,多媒体处理等等,他们研究的对象包括 : 网络结构:用户及其关系和行为 媒体信息:文本,视频,语音等信息 知 ...

  7. 【转】自然语言系列学习之表示学习与知识获取(四)TransE

    概述 在知识表示学习方面,一个代表性的算法就是transe, 它的基本思想是把每一个实体和每一个关系都表示成一个低维的向量,它的想法是对于每一个事实,将其中的relation看成是从头实体到尾实体的一 ...

  8. css层叠样式表基础学习笔记--第五章 文本属性

    第五章 文本属性 5-01 字间距 5-02 行高 5-03 首行缩进 5-04 水平排列方式 5-05 垂直对齐方式 5-06 文本修饰 5-07 文本阴影 5-08 文本属性重置 5-01 字间距 ...

  9. c++ openvc4.5.5 学习笔记(五)图像平滑滤波几种基本方法(平均滤波blur、高斯平滑滤波GaussianBlur、中值滤波medianBlur、双边滤波bilateralFilter )

    平滑,也称为模糊,是一种简单而经常使用的图像处理操作. 要执行平滑操作,我们将对我们的图像应用过滤器.最常见的滤波器类型是线性的,其中输出像素的值(i.e. g(i,j)),被确定为输入像素值的加权和 ...

最新文章

  1. hadoop集群运维碰到的问题汇总
  2. 用python随机生成5000个网址_使用Python脚本生成随机IP的简单方法
  3. Linux删除所有文件(作死命令,危险命令)
  4. Linux全攻略--Squid服务器配置与管理
  5. 迭代器、生成器、递归、二分法
  6. java环境安装菜鸟教程,window系统安装Java 配置环境变量 | 菜鸟教程 JDK配置
  7. 小米6Android11刷机包,小米6刷机包MIUI12
  8. python爬虫项目报告需求分析_网络爬虫需求分析报告
  9. Linux连接荣耀路由器pro2,荣耀路由器Pro2与路由存储、远程访问、家庭共享
  10. Python编程中的常见语句
  11. 电信话务查询真的那么难?
  12. SpringBoot Actuator 健康监测
  13. Mysql的日志详解(详细)
  14. 著作权法_信息网络传播权保护条例_最高人民法院关于审理侵害信息网络传播权民事纠纷案件适用法律若干问题的规定
  15. Django 中的中间件
  16. 教育平台项目后台管理系统:视频讲解
  17. 大创项目前传——爬虫阶段(1)
  18. JavaScript专题(二):深入理解iframe
  19. LPC845-BRK开发板开箱
  20. windows运行程序命令

热门文章

  1. SpringBoot基础重难点
  2. 老万的java技术书单:你还在吃快餐吗?
  3. python三大主流框架的对比
  4. MySQL 处理海量数据时的一些优化查询速度方法
  5. php mysql PDO 查询操作的实例详解
  6. PHP获取数组最后一个值的2种方法
  7. 全面剖析支付宝服务窗功能二次开发
  8. 为PHP5.4开启Zend OPCode缓存
  9. WeChat授权Token验证体系:用token来隐藏微信用户的openid不用用户名与密码了, 与cookie与session很相似
  10. PHPstorm文件默认后缀