知识图谱之WordNet
1. 说明
今天讨论的是自然语言中的知识抽取和知识表示,换言之,就是如何从大量的书籍文献中剥离出我们关心的所谓“知识”,并将起组织保存成简单可用的描述。
不同的知识类型需要采用不同的知识表示方式,温有奎教授总结了10种知识类型 (具体见参考部分) 。对于静态概念及概念之间关系用面向对象形式来表示,对命题型问题用一阶逻辑来表示,对于系统流程和实验流程等过程性知识用脚本表示法。
静态概念是思维最基本的组成单元(以下简称基元),无论是命题还是流程,都离不开基元。我们应该把基元看作一种语义,而非一个单词。因为很多单词不具唯一性,常有一词多义,和一义多词的问题。
再来看看基元之间的关系,比如:水果,苹果,红富士,它们可能指向同一物体,又可能不同;它们在一定程度上拥有共同属性,又拥有各自特征;基元相互之间又可能有类别的包含,近义,反义,整体与局部等各种关系……
中文中的单词至少有几万个,这还不包括简单词组成的短语,如果有一个命题是“苹果是圆的”,那么是否也需要同时加入“红富士是圆的”,如果这样描 述属性,恐怕是举不胜举了。而人类一般可以针对具体问题总结一些规则,并使用到类似的场景之中,即泛化。当我们在知识库中找不到“红富士”的描述特征时, 我们可以参考它的父类“苹果”。
泛化的基础是基元之间的关系,这种关系又如何表示呢?来看看WordNet。
2. WordNet
WordNet是由Princeton 大学的心理学家,语言学家和计算机工程师联合设计的一种基于认知语言学的英语词典。它不是光把单词以字母顺序排列,而且按照单词的意义组成一个“单词的网络”。
它是一个覆盖范围宽广的英语词汇语义网。名词,动词,形容词和副词各自被组织成一个同义词的网络,每个同义词集合都代表一个基本的语义概念,并且这些集合之间也由各种关系连接。
WordNet包含描述概念含义,一义多词,一词多义,类别归属,近义,反义等问题,访问以下网页,可使用wordnet的基本功能
http://wordnetweb.princeton.edu/perl/webwn
下面来看看具体用法
3. 安装
wordnet是nltk(natural language toolkit)的一个组件,因此需要先下载nltk
$ sudo pip install nltk
下载wordnet组件相关数据(python程序)
import nltk
nltk.download('wordnet')
4. 测试程序
from nltk.corpus import wordnet as wn
print(wn.synsets('published')) # 打印publish的多个词义dog = wn.synset('dog.n.01') # 狗的概念
print(dog.hypernyms()) # 狗的父类(上位词)
print(dog.hyponyms()) # 狗的子类(下位词)
5. 主要功能介绍
(1) 上位词/下位词
hypernyms() # 上位(父类)
hyponyms() # 下位(子类)
(2) 同义词/反义词
lemma_names() # 同义
antonyms() # 反义
(3) 蕴涵关系
entailments()
(4) 整体与部位
part_meronyms() # 部分
substance_meronyms() # 实质
member_holonyms() # 成员
(5) 计算概念之间距离
path_similarity() # 相似度
lowest_common_hypernyms() # 在何种层面相似
6. 一些思考
Wordnet目前主要针对英文处理,想要使用它处理中文就需要构建中文的wordnet,把现有的知识加入该结构,其实也不需要从零做起,比如 类别归属,同义,反义,通用的有“同义词词林”字典可供使用,在很多的专业领域,也有概念的类别及关系定义(如各种医学词典),只是格式有所不同。另外, 还可以通过翻译,使用英文的WordNet的一部分数据,翻译过程中的问题主要是词汇的多义性,不过有些专有名词,歧义不大。
7. 参考
(1) 自然语言20.1 WordNet介绍和使用
https://www.cnblogs.com/webRobot/p/6094311.html
(2) 基于 NLP的知识抽取系统架构研究
https://wenku.baidu.com/view/5370b50a763231126edb11c5.html
(3) 基于知识元的文本知识标引
http://www.doc88.com/p-1816818922759.html
(4) python 自然语言处理(五)____WordNet
https://www.cnblogs.com/no-tears-girl/p/6416765.html
(5) WordNet主页
https://wordnet.princeton.edu/
(6) 中文词汇网路(Chinese Wordnet)
http://openkg.cn/dataset/chinese-wordnet
知识图谱之WordNet相关推荐
- 中国人工智能学会通讯——KS-Studio:一个知识计算引擎 1.2 知识图谱构建
1.2 知识图谱构建 知识图谱由实体.实体的属性描述以及实体和实体之间的关联构成.尽管其对于大数据人工智能的实现意义非凡,但其构造过程却极为困难.在早期,知识图谱构建单纯依赖于人类专家.在这一方法中, ...
- 第一章:知识图谱概述
目录 Part One. 什么是知识图谱? 1.人工智能的三个阶段 2.数据.信息和知识之间的关系 3.什么是知识库? 4.知识工程 5.大数据知识工程 6.知识图谱中图的结构 7.知识图谱是大数据知 ...
- CAS-KG——知识图谱概述
说明:CAS是国科大的简称,KG是知识图谱的缩写,这个栏目之下是我整理的国科大学习到的知识图谱的相关笔记. 课程目标 了解以知识图谱为代表的大数据知识工程的基本问题和方法 掌握基于知识图谱的语义计算关 ...
- 知识图谱_概述:课程PPT+个人理解
//2019.05.08 一.概念(是什么) 1.知识 :有不同的解释,可以是"不变的真理"."经验.背景.解释"."交工的信息" (1)分 ...
- 4场直播,哈工大、亚马逊等大咖为你带来机器学习与知识图谱的内容盛宴
机器学习和知识图谱是当今技术领域的热门话题,随着相关技术的不断发展,无论是对两类技术单独的探讨,还是将机器学习和知识图谱相结合的尝试,都在吸引越来越多的关注. 5月16日下午,来自亚马逊.墨奇科技.S ...
- 读完ACL 2019录取的30篇知识图谱论文,我发现了这5点趋势
作者 | Michael Galkin 译者 | Freesia 编辑 | 夕颜 出品 | AI科技大本营(ID: rgznai100) [导读]近年来,自然语言处理领域中广泛应用的知识图谱(KGs) ...
- 美团大脑:知识图谱的建模方法及其应用 | 公开课笔记
参加 2018 AI开发者大会,请点击 ↑↑↑ 分享嘉宾 | 王仲远(美团 AI Lab NLP 中心负责人) 整 理 | 周翔 出 品 | AI科技大本营 作为人工智能时代最重要的知识表 ...
- 人大赵鑫:基于图神经网络,建模知识图谱
报告 | 赵 鑫 撰文 | 熊宇轩 我这里主要给大家介绍一下利用图神经网络能做一些什么事情,这里面主要关注知识图谱的建模与应用. 在本次报告中,我们将从三个方面介绍基于图神经网络的知识建模与应用: ...
- 知识图谱前沿跟进,看这篇就够了,Philip S. Yu 团队发布权威综述,六大开放问题函待解决!...
来源:AI科技评论 本文约8400字,建议阅读15分钟 本文是数据科学权威 Philip S. Yu 团队对知识图谱领域的最新综述,从发展历史.理论基础.实际应用.未来的研究方向等方面为该领域勾画出了 ...
- 在刚刚结束的ACL 2019上,知识图谱领域都发生了哪些大事?
来源:机器之心 本文约6500字,建议阅读10分钟. 本文将介绍本届 ACL 收录的一些知识图谱方向的优秀成果,希望对读者们有所启发. [ 导读 ]对知识工程的研究贯穿于整个人工智能的发展史.作为目前 ...
最新文章
- HP存储raid5两块硬盘离线lvm下vxfs文件系统恢复数据过程
- go语言笔记——数组长度不可变,但是元素值是可变的!!!
- SQL server 2016 安装步骤
- 使用SublimeText 作为Python 的开发环境
- arcgis中的python字符串比较
- python中split函数_python strip()函数和Split函数的用法总结
- 对接第三方支付接口-类似文件锁的编程小技巧
- 【AI视野·今日CV 计算机视觉论文速览 第222期】Fri, 18 Jun 2021
- ubuntu重置root密码
- ArcGIS水文分析实战教程(6)河流提取与河网分级
- findContours函数参数详解
- b站黑马springCloud-常见面试题,多多三连
- H5 页面在 APP 里如何支持缩放,并隐藏手机自带的放大缩小图标。
- 软件工程--软件详细设计说明书(免费小说网站)
- 大战略游戏:统治者:罗马 for Mac
- 清华镜像下载pytorch 2022-06-23
- 阅读《人类简史:从动物到上帝》笔记
- ibus五笔造词、删词功能
- UVA 10118 简单DP
- bugku ctf 听首音乐 wirteup