WORDNET与HOWNET之比较
摘 要:本文在对Wordnet和Hownet进行简单介绍的基础上,从理论基础,设计原理与建设方法,目的与应用这三个大方面进行了比较。从而找出两个系统的相似之处和差异,以期对自然语言处理有所帮助。
关键词:Wordnet;Hownet ;比较;语义
作者简介:张笛,临沂大学外国语学院讲师,语言学。
近年来,随着计算机本身以及信息高速公路的飞速发展,人们开始更加重视语义的研究。各国都致力于可用于自然语言处理的大规模语义词典或大规模知识库的建设。例如:普林斯顿大学的英语Wordnet,微软的Mindnet,欧洲有基于Wordnet的Eurowordnet,日本的日语和英语的概念词典,韩国的Koreanwordnet,中国有以Wordnet为框架而研制的现代汉语概念词典――中文概念辞书(CCD)和董振东、董强的Hownet(知网)。
Wordnet是一个在线的英语词汇数据库(词汇参照系统),而Hownet是一个以汉语和英语的词语所代表的概念为描述对象,以揭示概念与概念之间以及概念所具有的属性之间的关系为基本内容的常识知识库。现在两者都被放在网上,供人们使用,并且可以参与他们的完善、扩展和发展。所以,本文拟把二者放在一起进行比较研究,找出两个系统的相似之处与差异,取长补短,以期为自然语言处理寻求一个较为完善的语义关系系统。
一、理论基础
首先,二者都以一种“模式假设”(patterning hypothesis)为前提和理论基础。其次,“理解性假设”(comprehensiveness hypothesis)也是二者的理论基础。但二者的理论基础不同之处也很多。Wordnet的一个较主要的理论基础是“可分离性假设”(separability hypothesis)即语言的词汇成分可以被离析出来并专门针对它加以研究。
Hownet的最重要的理论基础是它的哲学。其根本点是:世界上一切事物(物质的和精神的)都在特定的时间和空间内不停地运动和变化。部件和属性这两个单位在Hownet的哲学体系中占有着重要的地位,一个事物被视为是整体还是部件,可以因系统的不同而不同对待;而关于对属性的认识是:任何一个事物都一定包含着多种属性,事物之间的异同是由属性决定的,没有了属性就没有了事物。
二、设计原理与方法
二者的建设方法最明显的相同之处就是自上而下的方法。具体来说,Wordnet是以同义词集合作为基本构建单位进行组织的。Hownet则是先提取义原,以它为基本构建单位进行组织的。虽然细节不同,但总的指导性建设方法还是相同的。具体的设计原理与建设方法上,两者的不同点就凸现出来了。
1、Wordnet 的基本设计原理是它的“词汇矩阵模型”
一个词汇矩阵从理论上可以用单词与其同义词集合之间的映射来表示。当某个词有多个同义词时,通常同义词集合足以满足差异性的要求。当然,同义词是词形之间的一种词汇关系,但由于这种关系在Wordnet中被赋予了中心角色。因此,同义关系的词被放在{}中,与其他被放进[]中的词汇关系的词区别开来。Wordnet是按语义关系组织,由于语义关系是多个词义之间的关系,而词义用同义词集合来表示,因此很自然地把语义关系看作为同义词集合之间的一些指针。
2、Hownet的基本设计原理是把概念与概念之间的关系以及概念的属性与属性之间的关系形成一个网状的知识系统。这是它与Wordnet的本质不同。Hownet的建设方法的一个重要特点是自上而下的归纳的方法。通过对全部的基本义原进行观察分析并形成义原的标注集,然后再用更多的概念对标注集进行考核,据此建立完善的标注集。无论是义原的提取还是义原的考核与确定,在Hownet的建设中都是至关重要的并具有决定意义。
三、描述关系的比较
1、上下位关系
这是二者都有的。Wordnet是词义之间的语义关系。Hownet的上下位关系由概念的主要特征体现,也具有继承关系。
2、同义关系
同义关系是二者都有的。Wordnet最重要的关系是同义关系。Hownet对于同义的定义与Wordnet相似,都采取了较宽泛的定义,只是Wordnet的同义关系是显性的,而Hownet的同义关系是隐性的。
3、反义关系
Wordnet对于反义关系采取了直接反义和间接反义两种关系都包括的方法。Hownet中的反义关系比Wordnet定义的还要宽泛,只要属性值一样就可以形成反义关系。
四、目的与应用
1、目的
Wordnet一开始要建立一个词典浏览器,后来又发展成自足的词汇数据库和语义或义类的机读词典。而Hownet是要建立一个面向计算机的知识库,揭示多重语义关系网络,为自然语言处理系统的建立提供最终需要的知识库。
2、应用
由于二者都是为自然语言信息处理服务的系统,那么二者的应用有交叉。例如,二者都在进行意义排歧,语义分析,语料库语义标注,信息过滤和分类,机器翻译等方面有着十分广泛的应用。
两者又有自己独特的应用领域。例如,Wordnet由于许多国家都在它的基础上建立了词汇数据库,那么Wordnet就可以进行多国语处理的词汇转换。由于它的内部结构是以层次为主,所以可进行信息语义层次检索,还可以进行主题名义识别和图像检索等;而Hownet也有它自己的应用领域,如:基于Hownet的内部语义关系建立,语料库句法关系标注,信息检索系统自然语言接口。还有它关于汉语方面研究与应用的独特之处,如:它的信息过滤和分析系统都是双语的,可以进行事件角色语义特征的提取。把Wordnet和Hownet结合起来的典型应用要算基于两者建设的双语语义词典。
五、小结
经过对Wordnet和Hownet的一番比较,可以看出二者虽然是两种系统,但把二者结合起来研究,找出各自的不足之处,对自然语言处理研究还是有一点帮助作用的。Wordnet的词语概念是够用,但关系方面不足以支持推理。Hownet恰恰就是这样一种推理的知识库。Wordnet可向Hownet吸取这一点。Wordnet几乎没有关于句法方法方面的标注。而Hownet作为一个面向计算机并借助于计算机建立的常识知识库,它在语义知识构建方面明显优于Wordnet,而且许多现在Wordnet正致力解决的问题,在Hownet中都不是问题。所以在面向自然语言的信息处理方面,Hownet要优于Wordnet。当然Wordnet的研究人员也从来觉得这是一个“完工”的项目,Wordnet仍在继续发展中。
参考文献:
[1]Miller.G.A, Beckwith, R.., Fellbaum, C., Cross. D., and Miller. K., “Introduction to Wordnet : Lexical Database”[J], in five Papers on Wordnet, CSL report, Cognitive Science Laboratory, Princeton University, 1993.
[2]陈秀群,一个在线义类词库:词网Wordnet [J],语言文字应用,1998(2).
[3]董振东 董强,面向信息处理的词汇语义研究中的若干问题[J],语言文字应用,2001(3).
转载请注明来源。原文地址:http://www.xzbu.com/5/view-2005708.htm
WORDNET与HOWNET之比较相关推荐
- 如何成为一名对话系统工程师
作者 | 吴金龙 责编 | 何永灿 对话系统(对话机器人)本质上是通过机器学习和人工智能等技术让机器理解人的语言.它包含了诸多学科方法的融合使用,是人工智能领域的一个技术集中演练营.图1给出了对话系统 ...
- 你负责人工智能哪部分?人工那部分:知识图谱的构建主要靠人工还是机器?...
来源:学术头条 本文共4400字,建议阅读10+分钟. "论道知识图谱:知识赋能智能与智能产生知识" 大家都知道当前知识图谱是在当前人工智能领域一个备受关注的分支中有一个分类叫做& ...
- 借助LDA主题分析的短文本相似性计算 - 综述帖
目标:针对给定输入文本与文本库,计算得出文本库中与输入文本最相似的文本 综述帖:http://www.cnblogs.com/kinzznsblog/p/8780239.html 原理帖:http:/ ...
- 知识图谱(三)——知识体系构建和知识融合
知识图谱不仅包含具体的实例知识数据,还包括对知识数据的描述和定义.该部分对数据进行描述和定义的"元"数据被称为知识体系(Schema)或本体(Ontology). 知识融合主要方法 ...
- 连载 | 知识图谱发展报告 2018 -- 前言
OpenKG 将开始连载<知识图谱发展报告(2018)>,希望该连载能够让更多的人深入了解知识图谱.欢迎各位读者留言讨论. 1. 知识图谱的研究目标与意义 知识图谱(Knowledge G ...
- 对话机器人---智能客服
https://blog.csdn.net/qq_40027052/article/details/78723576 详细的介绍了对话机器人涉及到的所有知识和技术. 整个对话机器人涉及到的知识点,本人 ...
- 冯仕堃:预训练模型哪家强?百度知识增强大模型探索实践!
作者 | 冯仕堃 百度 主任架构师 来源 | DataFunTalk 导读:近年来,预训练语言模型在自然语言处理领域发展迅速,并获得广泛应用.本文将介绍百度基于知识增强的语义理解ERNIE的实践探索, ...
- Zhishi.me - Weaving Chinese Linking Open Data
Zhishi.me - Weaving Chinese Linking Open Data 1. 困难 managing the heterogeneity of knowledge indiffer ...
- 网络信息检索(五)查询处理:查询方式+查询操作
文章目录 一.查询方式 1:基于关键词的查询 (1)布尔查询 (2)短语查询 (3)近邻查询:短语查询扩展 2:结构查询 3:容错查询(Tolerant Retrieval) (1)模式匹配 (2)拼 ...
- 《知识图谱》赵军 学习笔记
知识图谱读书笔记 文章目录 知识图谱读书笔记 一. 概述 1.1 什么是知识图谱 1.2 知识图谱发展历程 1.3 知识图谱类型 1.4 知识图谱生命周期 知识体系构建 知识获取 知识融合 知识存储 ...
最新文章
- Angular的scope. apply和CRM WebClient UI的modify方法
- SQL作业:综合练习(二)的返评
- 主机数,子网数,网络号,主机号
- 如何让我的mfc应用程序可以在最上面?
- 无盘服务器性能测试,无盘系统性能测试及结语
- 中电信总工:我国将在2011底出现IP短缺
- java voip 的sip服务器搭建_SIP服务器,搭建自己的VoIP平台 | 学步园
- python英文文本词性分析
- 招投标工作中投标书编制的流程是怎样的?
- 首次适应算法 C语言实现
- 计网重点知识总结复习
- 表格识别综述与相关实战
- 【xlwings api语言参考】Worksheet.Cells 属性
- tenacity 报错_Python tenacity源码分析(一个专门用来做重试的库)v1.0
- PDF文件中插入图片(图章)
- Android 画中画(图片)
- home credit default risk(捷信违约风险)机器学习模型复现(论文_毕业设计_作业)
- Σd|nφ(d)=n的证明
- win10打开蓝牙_学会了这些win10快捷键,可以极大的提高你的工作效率
- 阿里云图像识别Java调用示例参考
热门文章
- SecureCRT下载安装与破解
- android 定时重启手机,有必要定时重启手机吗? 重启后手机会更流畅吗?
- HTML5+CSS简单的期末大作业:体育运动主题网站设计——羽毛球网页(5页) HTML+CSS+JavaScript 学生DW网页设计作业成品 web课程设计网页规划与设计 大学生毕设网页设计
- 文件夹病毒残余文件的解决办法
- [样本分析] Ramnit感染型病毒
- 编译carrot2发布
- 56相册视频(土豆相册视频 激动相册视频 QQ动感影集等)——下载教程
- java中如何查看代码运行时间?
- 微信第三方开放平台研发实战
- 混响时间测试软件安卓版,混响时间的测量方法资料.pdf