11.40 面向知识库的实体链接

近年来,万维网上的数据量飞速增长,万维网已经成为世界上最大、最丰富的数据仓库之一。万维网上的数据大多是以自然语言的形式而存在,比如新闻网页、个人主页、微博、论坛等。自然语言本身具有很高的歧义性,特别是对于那些在数据中经常出现的实体来说。一个实体可能拥有多个不同的名字,一个名字也可能指代多个不同的实体。

另一方面,由于知识库在信息检索、问答系统等领域的关键作用,人们渐渐意识到知识库构建对于未来万维网的发展至关重要。并且随着知识共享社区(比如维基百科 、百度百科 )的出现,以及信息抽取技术的发展,使得大规模全面的知识库的构建成为可能。一般来说,知识库中包含的信息主要关于世界上的实体、实体的类型,以及实体之间的相互关系。目前比较出名的知识库,包括 Google知 识 图 谱 、DBpedia [1] 、YAGO [2] 、Freebase [3] 、KnowItAll [4] 、ReadTheWeb [5] 和 Probase [6] 。 图 1 右边展示了 YAGO 知识库的示例。

由上面的描述可以看出,一方面互联网上有大量的数据,另一方面我们有大规模的机器可理解的知识库,那么将这两方面的信息联系起来是一个非常有意义的工作。因为这样能使我们更好地理解这些互联网上大量杂乱的数据,同时也对语义网[7]的建设做出贡献。为实现这个目标,一个关键步骤就是为文本中出现的实体名字,找到它们在知识库中的对应实体,这个任务叫做实体链接。图 1 展示了一个实体链接任务示例,图左边是一段万维网文本。实体链接的任务就是为左边文本中出现的实体Angela Merkel找到它在YAGO知识库中的对应实体。
实体链接任务非常有意义,它是知识库扩展、问答系统等应用领域的重要基础工作。由于世界在不停地演变和发展,不断有很多新的实体、新的实体关系涌现。因此,利用新知识对现有知识库进行扩充和更新是一个非常必要的工作。在向知识库添加新知识的过程中,首先需要为新知识中关联的实体找到它们在现有知识库中相对应的实体,以便准确地将新知识添加进知识库,因此实体链接被认为是知识库扩展的一个非常重要的子任务。

例如,关系抽取是指从文本中抽取出实体之间有意义的关系的过程[8–11] 。如果我们想将通过信息抽取方法从文本中抽取出来的实体关系添加到知识库中,首先需要将这个实体关系所关联的实体链接到知识库中的对应实体。如从文本中抽取以下一个关系:“李娜”的配偶是“姜山”。在将这个关系添加到知识库中之前,首先为这个关系所关联的两个实体(“李娜”和“姜山”)排歧,也就是找到它们在知识库中的对应实体。因为在知识库中有很多叫做“李娜”的人,包括著名网球运动员李娜、跳水运动员李娜、演员李娜、歌手李娜等。同样,知识库中也有很多叫做“姜山”的实体。因此必须根据这个关系被抽取出来的周围文本对这两个实体进行链接,找到它们在知识库中真正对应实体,从而才能将这个抽取出来的实体关系准确地添加进知识库。

问答系统通常依赖于它们背后支持的知识库来回答用户的问题。如图 2 所示,当用户向WolframAlpha 问答系统 询问“著名篮球运动员Michael Jordan 的生日”时,问答系统首先利用实体链接技术将用户问题中的“Michael Jordan”名字链接到那个著名的 NBA 球星 Michael JeffreyJordan,而不是同样叫做“Michael Jordan”的美国加州大学伯克利分校机器学习教授,或同样叫做“Michael Jordan”的英国足球运动员。接下来,问答系统才能准确地将知识库中 NBA 球星 MichaelJeffrey Jordan 的生日返回给用户。
实体链接任务的挑战主要来源于实体歧义。首先是多名问题,即一个实体可能拥有多个不同的名字,包括它的别名、缩写名、昵称等。比方说,北京航空航天大学这个实体拥有缩写名“北航”,北京故宫实体拥有别名“紫禁城”,重庆这个城市实体拥有别名“中国雾都”。不管实体在文本中是以怎样的名字出现,实体链接系统都要能够将其链接到它真正指代的实体。另外就是重名问题,即一个名字可能指代多个不同的实体。例如,“李娜”这个名字可能指的是著名的网球运动员、或者是跳水运动员、或演员、或者其他叫做“李娜”的人。实体链接系统需要对名字进行排歧,识别出在当前文本中的名字所真正指代的对应实体。

一般来说,实体链接任务的输入是文本中需要链接的实体名字,也就是说它假设这些实体名字已经被命名实体识别工具所发现。命名实体识别[12-16]是指从文本中识别具有特定意义的实体的过程,主要包括人名、地名、组织名、专有名词等。现在有很多公开的命名实体识别工具,例如 Stanford NER 、OpenNLP 和 LingPipe 。

《中国人工智能学会通讯》——11.40 面向知识库的实体链接相关推荐

  1. 《中国人工智能学会通讯》——12.38 知识库与 HTML 表格的融合

    12.38 知识库与 HTML 表格的融合 近年来,HMTL 表格(Web Table)作为万维网上重要的结构化数据,受到了广泛关注.HTML 表格有两个优点,其一是数量巨大,根据微软在 2012年的 ...

  2. 中国人工智能学会通讯——无智能,不驾驶——面向未来的智能驾驶时代 ( 下 )...

    到目前为止似乎比较完美,而实际还 存在着一些问题.我们现在看到很多道 路上面,交通标志牌它的分布非常稀疏, 可能每过一两公里才能够检测出来一个 交通标志牌,因为毕竟这个深度学习算 法是目前最完美的,它 ...

  3. 中国人工智能学会通讯——深蓝、沃森与AlphaGo

    在 2016 年 3 月 份,正当李 世石与AlphaGo 进行人机大战的时候,我曾经写过 一 篇< 人 工 智 能 的 里 程 碑: 从 深 蓝 到AlphaGo>,自从 1997 年深 ...

  4. 中国人工智能学会通讯——基于视频的行为识别技术 1.7 视频的深度分段网络...

    1.7 视频的深度分段网络 下面介绍另外一个工作,是我们和 CUHK.ETH 联合开展的,这个工作考 虑视频的分段特性,我们知道视频可以分 成很多段,每一段有不同的内容.我们 开发了一个深度模型,对不 ...

  5. 中国人工智能学会通讯——智能系统测评:挑战和机遇

    上面的四个报告从四个维度讨论了智能系统测评的不同方面--产业.基础.基础和伦理.我受中国人工智能学会的委托,组织这次分论坛,为此对这个领域做了一些调研和思考,从现状和挑战这两个方面做了一些初步总结. ...

  6. 《中国人工智能学会通讯》——12.33 众包知识库补全方法概览

    12.33 众包知识库补全方法概览 本章介绍众包知识库补全的方法概览,如图 1所示.其基本思想包含两个部分,其一,利用多种数据源,如现有的多个知识库.Web 结构化数据等,提取知识数据,并将不同数据源 ...

  7. 《中国人工智能学会通讯》——6.7 实体链接任务及系统

    6.7 实体链接任务及系统 给定一段文本(如"在旧金山的发布会上,苹果为开发者推出新编程语言 Swift"),一个实体链接系统需要通过如下多个子任务来实现实体消歧 [4] . 1 ...

  8. 《中国人工智能学会通讯》——11.52 基于直推式学习的异质人脸图像 合成

    11.52 基于直推式学习的异质人脸图像 合成 前面介绍的方法都是基于归纳式学习(InductiveLearning) 的,这些方法取得了不错的效果,但是它们也使得测试样本风险误差增加,进而可能影响合 ...

  9. 《中国人工智能学会通讯》——11.66 结构属性表示及其在脑影像分析中的应用...

    11.66 结构属性表示及其在脑影像分析中的应用 传统属性表示方法主要集中在视觉属性.部件属性和相似属性.由于现实问题的复杂性和多样性,现有的属性表示方法无法对具有明显结构信息的图像进行有效表达.例如 ...

最新文章

  1. fastq质量值_fastq格式文件处理大全(四)
  2. 学python可以考证吗-python能考证么
  3. C# 使用Epplus导出数据到Excel
  4. java面试题一 静态变量
  5. JS判断 浏览器 是否禁用Cookie
  6. iOS APP网络分析之rvictl(可以捕捉除了Wifi以外的网络类型)
  7. 在caffe中使用hdf5的数据
  8. SQL Server :理解数据记录结构
  9. [高光谱] Hyperspectral-Classification Pytorch 数据集的读取、划分、加载
  10. MFC模拟360悬浮窗加速球窗口
  11. [境内法规]中国人民银行关于防范利用假美元洗钱的通知—银发[2006]第60号
  12. 阿里云大学生领取免费ECS服务器——测试题答案
  13. 回眸 2021,展望 2022
  14. Kent Beck揭秘Facebook开发部署流程
  15. 微信版“花呗”全面开放,人人都可以申请!
  16. android arm代码,为Android ARMV7编译OpenSSL 1.1.0
  17. golang的基本语法
  18. 软件的知识产权保护---著作权法及实施条例
  19. 为了进大厂,韩顺平高级Java教程百度云
  20. 车牌识别matlab gui,车牌识别(含GUI,语音播报)

热门文章

  1. dell服务器怎么用u盘系统安装win7系统教程,解答戴尔怎么使用u盘重装win7系统
  2. 电脑临时文件删了能恢复吗?电脑临时文件删除怎么恢复
  3. python发送短信验证码不用三方模块_python利用第三方模块,发送短信验证码
  4. cached in the local repository的解决办法
  5. SpringCloud开胃菜
  6. css绘画虚线 竖的 横的
  7. DevOps到底是什么意思?看完这篇不要再问我了
  8. 杂谈---大压力下的工作
  9. APG优化非负矩阵分解(NeNMF)
  10. 双MIPI摄像头图像系统设计