近年来,随着计算机本身以及信息高速公路的飞速发展,人们开始更加重视语义的研究。各国都致力于可用于自然语言处理的大规模语义词典或大规模知识库的建设。例如:普林斯顿大学的英语Wordnet,微软的Mindnet,欧洲有基于Wordnet的Eurowordnet,日本的日语和英语的概念词典,韩国的Koreanwordnet,中国有以Wordnet为框架而研制的现代汉语概念词典――中文概念辞书(CCD)和董振东、董强的Hownet(知网)。 
  Wordnet是一个在线的英语词汇数据库(词汇参照系统),而Hownet是一个以汉语和英语的词语所代表的概念为描述对象,以揭示概念与概念之间以及概念所具有的属性之间的关系为基本内容的常识知识库。现在两者都被放在网上,供人们使用,并且可以参与他们的完善、扩展和发展。所以,本文拟把二者放在一起进行比较研究,找出两个系统的相似之处与差异,取长补短,以期为自然语言处理寻求一个较为完善的语义关系系统。 
一、理论基础 
  首先,二者都以一种“模式假设”(patterning hypothesis)为前提和理论基础。其次,“理解性假设”(comprehensiveness hypothesis)也是二者的理论基础。但二者的理论基础不同之处也很多。Wordnet的一个较主要的理论基础是“可分离性假设”(separability hypothesis)即语言的词汇成分可以被离析出来并专门针对它加以研究。 
  Hownet的最重要的理论基础是它的哲学。其根本点是:世界上一切事物(物质的和精神的)都在特定的时间和空间内不停地运动和变化。部件和属性这两个单位在Hownet的哲学体系中占有着重要的地位,一个事物被视为是整体还是部件,可以因系统的不同而不同对待;而关于对属性的认识是:任何一个事物都一定包含着多种属性,事物之间的异同是由属性决定的,没有了属性就没有了事物。

二、设计原理与方法 
  二者的建设方法最明显的相同之处就是自上而下的方法。具体来说,Wordnet是以同义词集合作为基本构建单位进行组织的。Hownet则是先提取义原,以它为基本构建单位进行组织的。虽然细节不同,但总的指导性建设方法还是相同的。具体的设计原理与建设方法上,两者的不同点就凸现出来了。 
  1、Wordnet 的基本设计原理是它的“词汇矩阵模型” 
  一个词汇矩阵从理论上可以用单词与其同义词集合之间的映射来表示。当某个词有多个同义词时,通常同义词集合足以满足差异性的要求。当然,同义词是词形之间的一种词汇关系,但由于这种关系在Wordnet中被赋予了中心角色。因此,同义关系的词被放在{}中,与其他被放进[]中的词汇关系的词区别开来。Wordnet是按语义关系组织,由于语义关系是多个词义之间的关系,而词义用同义词集合来表示,因此很自然地把语义关系看作为同义词集合之间的一些指针。 
  2、Hownet的基本设计原理是把概念与概念之间的关系以及概念的属性与属性之间的关系形成一个网状的知识系统。这是它与Wordnet的本质不同。Hownet的建设方法的一个重要特点是自上而下的归纳的方法。通过对全部的基本义原进行观察分析并形成义原的标注集,然后再用更多的概念对标注集进行考核,据此建立完善的标注集。无论是义原的提取还是义原的考核与确定,在Hownet的建设中都是至关重要的并具有决定意义。

三、描述关系的比较 
  1、上下位关系 
  这是二者都有的。Wordnet是词义之间的语义关系。Hownet的上下位关系由概念的主要特征体现,也具有继承关系。 
  2、同义关系 
  同义关系是二者都有的。Wordnet最重要的关系是同义关系。Hownet对于同义的定义与Wordnet相似,都采取了较宽泛的定义,只是Wordnet的同义关系是显性的,而Hownet的同义关系是隐性的。 
  3、反义关系 
  Wordnet对于反义关系采取了直接反义和间接反义两种关系都包括的方法。Hownet中的反义关系比Wordnet定义的还要宽泛,只要属性值一样就可以形成反义关系。

四、目的与应用 
  1、目的 
  Wordnet一开始要建立一个词典浏览器,后来又发展成自足的词汇数据库和语义或义类的机读词典。而Hownet是要建立一个面向计算机的知识库,揭示多重语义关系网络,为自然语言处理系统的建立提供最终需要的知识库。 
  2、应用 
  由于二者都是为自然语言信息处理服务的系统,那么二者的应用有交叉。例如,二者都在进行意义排歧,语义分析,语料库语义标注,信息过滤和分类,机器翻译等方面有着十分广泛的应用。 
  两者又有自己独特的应用领域。例如,Wordnet由于许多国家都在它的基础上建立了词汇数据库,那么Wordnet就可以进行多国语处理的词汇转换。由于它的内部结构是以层次为主,所以可进行信息语义层次检索,还可以进行主题名义识别和图像检索等;而Hownet也有它自己的应用领域,如:基于Hownet的内部语义关系建立,语料库句法关系标注,信息检索系统自然语言接口。还有它关于汉语方面研究与应用的独特之处,如:它的信息过滤和分析系统都是双语的,可以进行事件角色语义特征的提取。把Wordnet和Hownet结合起来的典型应用要算基于两者建设的双语语义词典。

五、小结 
  经过对Wordnet和Hownet的一番比较,可以看出二者虽然是两种系统,但把二者结合起来研究,找出各自的不足之处,对自然语言处理研究还是有一点帮助作用的。Wordnet的词语概念是够用,但关系方面不足以支持推理。Hownet恰恰就是这样一种推理的知识库。Wordnet可向Hownet吸取这一点。Wordnet几乎没有关于句法方法方面的标注。而Hownet作为一个面向计算机并借助于计算机建立的常识知识库,它在语义知识构建方面明显优于Wordnet,而且许多现在Wordnet正致力解决的问题,在Hownet中都不是问题。所以在面向自然语言的信息处理方面,Hownet要优于Wordnet。当然Wordnet的研究人员也从来觉得这是一个“完工”的项目,Wordnet仍在继续发展中。

转载地址:http://www.xzbu.com/5/view-2005708.htm

Wordnet 与 Hownet 比较相关推荐

  1. 如何成为一名对话系统工程师

    作者 | 吴金龙 责编 | 何永灿 对话系统(对话机器人)本质上是通过机器学习和人工智能等技术让机器理解人的语言.它包含了诸多学科方法的融合使用,是人工智能领域的一个技术集中演练营.图1给出了对话系统 ...

  2. 你负责人工智能哪部分?人工那部分:知识图谱的构建主要靠人工还是机器?...

    来源:学术头条 本文共4400字,建议阅读10+分钟. "论道知识图谱:知识赋能智能与智能产生知识" 大家都知道当前知识图谱是在当前人工智能领域一个备受关注的分支中有一个分类叫做& ...

  3. 借助LDA主题分析的短文本相似性计算 - 综述帖

    目标:针对给定输入文本与文本库,计算得出文本库中与输入文本最相似的文本 综述帖:http://www.cnblogs.com/kinzznsblog/p/8780239.html 原理帖:http:/ ...

  4. 知识图谱(三)——知识体系构建和知识融合

    知识图谱不仅包含具体的实例知识数据,还包括对知识数据的描述和定义.该部分对数据进行描述和定义的"元"数据被称为知识体系(Schema)或本体(Ontology). 知识融合主要方法 ...

  5. 连载 | 知识图谱发展报告 2018 -- 前言

    OpenKG 将开始连载<知识图谱发展报告(2018)>,希望该连载能够让更多的人深入了解知识图谱.欢迎各位读者留言讨论. 1. 知识图谱的研究目标与意义 知识图谱(Knowledge G ...

  6. 对话机器人---智能客服

    https://blog.csdn.net/qq_40027052/article/details/78723576 详细的介绍了对话机器人涉及到的所有知识和技术. 整个对话机器人涉及到的知识点,本人 ...

  7. 冯仕堃:预训练模型哪家强?百度知识增强大模型探索实践!

    作者 | 冯仕堃 百度 主任架构师 来源 | DataFunTalk 导读:近年来,预训练语言模型在自然语言处理领域发展迅速,并获得广泛应用.本文将介绍百度基于知识增强的语义理解ERNIE的实践探索, ...

  8. Zhishi.me - Weaving Chinese Linking Open Data

    Zhishi.me - Weaving Chinese Linking Open Data 1. 困难 managing the heterogeneity of knowledge indiffer ...

  9. 网络信息检索(五)查询处理:查询方式+查询操作

    文章目录 一.查询方式 1:基于关键词的查询 (1)布尔查询 (2)短语查询 (3)近邻查询:短语查询扩展 2:结构查询 3:容错查询(Tolerant Retrieval) (1)模式匹配 (2)拼 ...

  10. 《知识图谱》赵军 学习笔记

    知识图谱读书笔记 文章目录 知识图谱读书笔记 一. 概述 1.1 什么是知识图谱 1.2 知识图谱发展历程 1.3 知识图谱类型 1.4 知识图谱生命周期 知识体系构建 知识获取 知识融合 知识存储 ...

最新文章

  1. Relative path in absolute URI: ${system:java.io.tmpdir%7D/$%7Bsystem:user.name%7D
  2. java 随机生成图,Java中的快速实值随机生成器
  3. 项目启动时flowable报错提示 version mismatch: library version is *, db version is *
  4. 集中和分散架构之间的区别_分散式应用程序架构:后端,安全性和设计模式
  5. calltreetest中文_calltree查看工程代码中的函数调用关系
  6. java 时间日期视频_40-日期和时间-JAVA和C#语法比较 - 视频教程 - 北盟网校 - 专注原创教学第一站...
  7. 冬天人物活动插画|表达有温度的冬季海报必备psd分层素材
  8. 对比学习在NLP和多模态领域的应用
  9. U盘autorun病毒清理
  10. HDU 5943 2016CCPC杭州 K: Kingdom of Obsession(二分匹配)
  11. mysql 主从特性_mysql 5.6 新特性 主从推延
  12. Kibana 自定义索引模式 Index patterns
  13. 如何安装Catfish(鲶鱼)
  14. P90音频播放无声音问题(ACC音频文件)
  15. m6000查看端口状态_Linux查看端口使用状态、关闭端口方法
  16. 证件OCR识别360度全面解析
  17. 2020-21《全球软件质量报告》解读
  18. jstl获取表格单元格值_表格单元格和位置绝对值
  19. 共享自习室创业项目分析
  20. ctfshow-萌新赛Crypto

热门文章

  1. 集成海康威视Sadp SDK实现设置设备参数配置
  2. 海康DS-2DY5223IW-DM
  3. 4选1选择器(第一天)
  4. 计算机组成与系统结构第五版pdf,计算机组成与系统结构1_5习题整理版.pdf
  5. matlab哈明窗带阻,MATLAB数字滤波器程序 Hamming窗带通滤波器
  6. delphi 获取计算机,Delphi中用GetTickCount获取计算机运行时间
  7. 制作 Pidgin QQ 表情包
  8. Three.js贴图效果一览
  9. android小游戏代码
  10. 宠物医院app开发的功能有哪些?