1 改进《同义词词林》共享版

在实验中,由于客观条件的限制,我们选择的语义词典是《同义词词林》。《同义词词林》是梅家驹等人[1]于1983年编纂而成,初衷是希望提供较多的同义词语,对创作和翻译工作有所帮助。但在我们发现,这本词典中不仅包括了一个词语的同义词,也包含了一定数量的同类词,即广义的相关词,可以参考表1.1中的词条示例。经此分析之后,我们认为它完全可以作为语义词典用到自然语言处理任务中。同时,《同义词词林》与WordNet的格式有若干相似之处,即都是用一个同义词集合来表示一个意思,所以可以引入WordNet中的各种语义度量方法,在《同义词词林》中比较这些方法。

表1.1 词典结构示例

Ae07 农民 牧民 渔民

农民 农夫 农人 农 庄稼人 庄稼汉 田父 泥腿子 农家 耕夫 老乡

小农 个体农民

佃农 佃户

上中农 富裕中农

* * 菜农 棉农 茶农 烟农 蔗农 花农 药农 林农

雇农 贫农 下中农 中农 上中农 富农

自耕农 半自耕农 集体农民 人民公社社员

1)该表来源于《哈工大信息检索研究室同义词词林扩展版》说明

表1.2   《同义词词林》扩展前后比较

词典特征

扩展前

扩展后

词条总数

53,895个

77,343个

大类数

12个

12个

中类数

94个

97个

小类数

1428个

1400个

层次数

3层

5层

编码长度

4

8

由于《同义词词林》著作时间较为久远,且之后没有更新,所以原书中的某些词语成为生僻词,而很多新词又没有加入。有鉴于此,哈尔滨工业大学信息检索实验室利用众多词语相关资源,并投入大量的人力和物力,完成了一部具有汉语大词表的《哈工大信息检索研究室同义词词林扩展版》[2]。扩展版剔除了原版中的14,706个罕用词和非常用词,最终的词表包含77,343条词语。表1.2列出了扩展前后的《同义词词林》的主要特征。扩展后的《同义词词林》,含有比较丰富的语义信息。但是目前由于种种原因,《同义词词林》完整版并没有共享,而只是共享了其中的词典文件。期待着哈工大信息检索实验室能够在不久的将来能够将完整版进行共享,以满足研究和实际应用的需要。

在《哈工大信息检索研究室同义词词林》共享部分的基础上,我们根据项目的实际需要,进行了以下改进:

在扩展版电子版中加入了较高层次的集合,譬如说,Ab000002 男女老少。其中编码的长度与哈工大扩展版相同,为8位,下文将作详细说明。Ab000002之中,Ab仍然表示的是大类和中类名,00000表示该集合是一个中类的标题,而2表示的该类的深度为2。

我们参考WordNet的保存格式,创建了新的索引文件和数据文件,其中索引文件和数据文件中记录的格式将在下文说明。程序中所有的数据文件和样本示例都列在附录之中。词典索引文件和数据文件请参照附录A表1和表2。

 

1.1 词典中的编码

结合《同义词词林》原书中的介绍,以及《哈工大信息检索研究室同义词词林扩展版》说明,下边对词典中的编码作简要介绍。

《同义词词林》原版只提供了三层编码,即大类用大写英文字母表示,中类用小写英文字母表示,小类用二位十进制整数表示。例如:“Ae 07 农民 牧民 渔民”,“Ae 07”是编码,“农民 牧民 渔民”是该类的标题。标题是由一个或者多个第四层的“段首(即每个段的第一个词)”组成。根据标题词可以知道小类有分成多少个第四级类,参见表5.1。

在哈工大的扩展版中,新增了第四级和第五级编码。新增的第四级和第五级的编码与原有的三级编码和并构成一个完整的编码,唯一的代表词典中的出现的词语。如:

Ba01A02= 物质 质 素

Cb02A01= 东南西北 四方

编码的方法说明如下:

第四级用大写英文字母表示,第五级用二位十进制整数表示。由于第五级的分类结果需要特别说明,例如,有的行是同义词,有的行是相关词,有的行只有一个词,可以分出具体的三种情况。在使用上,有时需要对这三种情况进行区别对待,所以有必要再增加标记来分别代表着几种情形。具体的标记参见表1.3。

表1.3   哈工大扩展版编码规则表

编码位

1

2

3

4

5

6

7

8

符号举例

D

a

1

5

B

0

2

= / # /@

符号性质

大类

中类

小类

词群

原子词群

级别

第一级

第二级

第三级

第四级

第五级

1)该表来源于《哈工大信息检索研究室同义词词林扩展版》说明

表中的编码位是按照从左到右的顺序排列。第八位的标记有3 种,分别是“=”、“#”、“@”, “=”代表“相等”、“同义”。末尾的“#”代表“不等”、“同类”,属于相关词语。末尾的“@”代表“自我封闭”、“独立”,它在词典中既没有同义词,也没有相关词。

 

1.2 集合之间的关系

我们改进的同义词词林中加入了关系,包括上位关系(Hypernymy,用符号$表示)和下位关系(Hyponymy,用符号~表示)。这样就丰富了《同义词词林》的语义。在这里,由于条件的限制,我们没有区分单词之间的关系和集合之间的关系,而把所有的关系默认为是集合之间的关系,这也就产生一定的误差。

根据我们的改进,生成了新的数据文件和索引文件。索引文件中任一条记录的格式如下:

数据文件中任一条记录的格式如下:

其中<>表示可以为有限多项,各个字段的含义如表所示:

表1.4   改进后的《同义词词林》文件格式说明

数据文件格式

索引文件格式

字段名

含义

字段名

含义

synsetOffset

同义词集合编号,长度为8的字符串

lexicalName

词语名称

wordNumber

集合中单词的个数,用两位十六进制整数表示

synsetNumber

包含该词语的同义词集合的个数

word

各个词语名称

synsetOffset

包含该词语的同义词集合的编号

ptr

指针,包括

pointer_symbol,

synset_offset

 

synset_offset

目标集合在相应词性文件中的编号

 

pointer_symbol

指针符号

 

 

2 建立词频文件和停用词文件

因为Resnik[3]等人的信息量方法需要用到语料库中的词频统计文件,所以我们建立了两个文件,一个是词语的词频文件,还有一个是同义词集合的词频文件。其中,同义词集合的词频计算是按照Resnik的方法[3]

在建立词频文件时,我们利用了因特网上丰富的资源。在比较多个中文语料库词频文件之后,我们最终采用了英国Lancaster大学计算语言系网上发布的词频文件[4]。该文件来源于LCMC(Lancaster Corpus of Mandarin Chinese)语料库,语料库中包含了《人民日报》2000年全年的新闻材料。我们从词频文件中,筛选出《同义词词林》扩展版中含有的56370个词语,《同义词词林》扩展版一共有77492个词语,另外的21122个词语在词频文件中没有出现。我们这21122个基本上都是罕见词语,所以把它们的词频统一设为0。

同义词集合的词频计算是按照Resnik的方法,即集合内所有词语以及下位集合所有词语的词频之和。同时需要说明的是,在Resnik的统计中,只是加总了名词的词频,因为英语中名词,动词,形容词有明显的区分。而在汉语当中,名词,动词,形容词并无严格的区分,只能由他们在句子中所起的作用作大致判断。所以,我们的同义词集合词频统计中包含了所有的实词,而去掉了《同义词词林》中第K类(助词)和第L类(敬语)。

因为在文本预处理中需要剔除停用词,从而需要一个停用词表。我们利用了哈尔滨工业大学信息检索实验室提供的《中文停用词表》。我们发现,其实这个词表中的词语就是《同义词词林》扩展版中第K类(助词)和第L类(敬语)下的词语。

在预处理的过程中,我们也发现,虽然《同义词词林》扩展版涵盖的词语已经非常广泛,但是仍然存在文件中出现,但是词典中不包含的词语。我们对我们所建立的语料库中的这类词语进行了统计,在去掉数字之后,共有词语1869个。我们仔细观察了这1869个词语,发现大部分都是人名,地名,机构名等专用名称。所以,我们也把这些词语连同停用词一并剔除。

更多信息

对于研究自然语言处理而言,一个好的词典资源有时是必不可少的。如果大家需要下载《同义词词林》,请去语言技术网这个网页或者我的个人空间。对于哈工大《同义词词林》中数据的几个小问题,请看《 同义词词林扩展版的三个小bug 》。如果大家有问题,欢迎大家来Email我:luozhicheng.dut@gmail.com。

致谢

首先衷心感谢哈工大信息检索实验室的研究者们,非常钦佩你们资源共享的精神。其次衷心感谢大连理工大学裘江南老师的指导。我在参与裘江南老师项目过程中,使用到《同义词词林》扩展版,词语的确是比较全和新。但是目前《同义词词林》共享版本比较简单,所以我们做了一点点改进,请诸位多多指教。

参考文献:

[1] 梅家驹,竺一鸣,高蕴琦等编.同义词词林.上海:上海辞书出版社,1983.

[2] 《同义词词林》扩展版. http://www.ir-lab.org/

[3] Resnik, P. Using information content to evaluate semantic similarity. In Proceedings of the 14th International Joint Conference on Artificial Intelligence, Montreal, Canada,1995.

[4] McEnery T, Xiao R. The LancasterCorpus of Mandarin Chinese.

http://bowland-files.lancs.ac.uk/corplang/lcmc/.访问时间:2007-6-12.

哈工大《同义词词林》共享版的若干改进相关推荐

  1. 同义词词林 java_基于同义词词林扩展版的词语相似度计算

    词语相似度计算 词义相似度计算在很多领域中都有广泛的应用,例如信息检索.信息抽取.文本分类.词义排歧.基于实例的机器翻译等等.国内目前主要是使用知网和同义词词林来进行词语的相似度计算. 本文主要是根据 ...

  2. 基于信息内容的词林词语相似度计算 - 论文及代码讲解

    文章目录 论文 同义词林简介 特点 代码 获取词的编码 求IC值 求相似度 选取相似度最大值 论文:<基于信息内容的词林词语相似度计算 >-2018-彭琦,朱新华等 查看 代码:https ...

  3. 独享版虚拟主机、共享版虚拟主机和云服务器ECS的区别?

    虚拟主机:虚拟主机即通过相关技术把一台服务器划分成多个一定大小的硬盘空间,每个空间都给予单独的FTP权限和Web访问权限,多个用户共同平均使用这台服务器的硬件资源.市场上的虚拟主机都是共享版虚机的模式 ...

  4. Java之词义相似度计算(语义识别、词语情感趋势、词林相似度、拼音相似度、概念相似度、字面相似度)

    Java之词义相似度计算(语义识别.词语情感趋势.词林相似度.拼音相似度.概念相似度.字面相似度) 1.词语相似度计算 2. 短语相似度值 3. 词形词序句子相似度值.优化的编辑距离句子相似度值.标准 ...

  5. 媒体利器!最新同义词词库助力创作伪原创

    [文章标题] "激动人心!最新同义词词库发布,助力媒体创作伪原创" [文章内容] 近日,一份全新的同义词词库正式发布,为媒体行业带来了一股新的创作风潮.这个词库的独特之处在于,它能 ...

  6. 软件升级|增值税发票税控开票软件(税控盘版)新增改进功能说明(版本号:V2.0.51_ZS_20221031)

    增值税发票税控开票软件 (税控盘版) 新增改进功能说明 (版本号:V2.0.51_ZS_20221031) 2022-10 目录 第1章 概述 1.1 新增改进功能 1.1.1 发票管理功能 1.1. ...

  7. 沪深股票历史财报数据查询系统网络共享版

    下载安装文件 首先,这是一个PC版,在电脑上才能用,不是手机APP,请不要在手机上下载: 其次,很多人炒股是不看财报数据的,这部分人可以忽略: 说明:程序主要是数据库(截至2017年三季报)和数据查询 ...

  8. 充电复习之ES 扩展词库及热更新词库,扩展同义词词库,及热扩展词库

    1.es扩展词库在/usr/local/es/elasticsearch-node01/plugins/elasticsearch-analysis-ik-7.2.1/config中新建文件 new_ ...

  9. 风铃虚拟机键盘鼠标同步器风铃虚拟机同步器共享版虚拟机批量管理克隆

    下载地址:https://fengl.lanzouw.com/b0esh69yj 密码:7yr1 风铃虚拟机同步器是一个非常适合游戏工作室虚拟机多开起号打金使用的键盘鼠标同步软件,这样给多个游戏账号打 ...

  10. 哈工大大数据实验_哈工大男女比例位居榜首!哈工大、东北林大、哈师大......百所高校2020新生数据大揭秘!这所大学女生数量全国第一?...

    来源:综合软科(ID: zuihaodaxue) 2020年高考录取基本尘埃落定.9月是开学季,很多萌新满怀憧憬地从高中步入大学,而全国各大高校也陆续秀出了2020年本科新生大数据,涵盖新生总数.男女 ...

最新文章

  1. MySQL开发医药管理系统_java Web开发医药后台管理系统mysql版本源代码下载,支持中英文...
  2. Android Studio下项目构建的Gradle配置及打包应用变体
  3. redis:消息发布与订阅频道
  4. 面向在线教育业务的流媒体分发演进
  5. 安装ubuntu20.04(安装vim、gcc、VMtools、中文输入法、汉化、修改IP地址)
  6. win32开发(创建子窗口)
  7. TIOBE 6 月编程语言排行榜:Java 放缓,C 复兴了!
  8. 【99JS手记】之一:nth-child选择器
  9. 17.电话号码的字母组合(力扣leetcode) 博主可答疑该问题
  10. ubuntu 下启用ipv6
  11. 致远SPM国资企业解决方案之督查督办管理
  12. 大师级管理人物盘点:“颠覆性技术“提出者-克里斯坦森
  13. Ubuntu开机一直滚屏 关键词:pcieport.......
  14. [R] R语言for循环机制
  15. 常耀俊老师经典《非人力资源经理的人力资源管理》课程
  16. windows下mysql误删除数据恢复
  17. 体育教学与计算机技术的结合点,【大学教育论文】虚拟现实技术在高校体育教育的应用(共2757字)...
  18. JEC-QA:A Legal-Domain Question Answering Dataset 论文阅读
  19. python:用OLS 求企业的净利润年平均增长率
  20. QT Debugging Helper Missing

热门文章

  1. 导出数据库数据至CSV格式
  2. 【全网世界区划最全整理输出之第五部分】全世界所有国家的行政区划整理,省市信息,已按照国家,省,市排好序,可直接复制使用,第五部分到结束行21088,总条数:21088
  3. 微信公众号 菜单 { “errcode“: 47001, “errmsg“: “data format error rid: 61b36b ...“}
  4. 多媒体计算机辅助英语教学,多媒体计算机辅助初中英语教学的实践研究
  5. cameraLink
  6. ASEMI整流桥S25VB100,S25VB100参数,S25VB100应用
  7. 做博客推广的SEO外链计划
  8. 网页设计css入门,网页设计基础:Div+CSS布局入门教程
  9. 56、弱电工程交换机的三种vlan划分方法详解,划分vlan变得如此简单。
  10. 基于C语言的端口扫描工具设计与实现