中文词语库CWB简介[转]
有的网友问,中国有没有值得称道的用于自然语言处理的词汇研究成果?
我的回答是:当然有。我个人认为,这些成果中最值得称道的是董振东老师开发的“知网”(HowNet),有兴趣的读者可以到知网的网站访问。我这里就不介绍了。
今天,我要向网友们介绍另一个值得称道的研究成果--没有正式职业的自由研究人张潮生的中文词语库CWB (Chinese Word Base, 暂名)。
中文词语库CWB系统的核心是一个规模较大的中文词库。该词库目前收入了 13万以上的书面形式的词条,包括单词、固定词组、成语、一定比例的专名、少量在中文文章中较常见的英文缩写或含有字母的词语, 等等。每个词条通过关系比较密切的相关词 (例如同义词、反义词、上位词、下位词等) 与其它词条相连结。整个词库呈现为比较复杂的网络结构, 并带有多种检索手段和显示方式。
该词库包含大量的同义、分类等语义信息, 可用作中文的同义词典、反义词典、分类词典或者某种资料信息库, 也是一种知识本体, 有类似著名英文词库 WordNet 的用途。它可用于搜索引擎、全文检索等检索工具中, 帮助用户选择关键词、帮助系统提供相关搜索词或进行其它智能处理, 例如语义搜索、精准匹配等。也可用于字处理、写作助理等办公软件中, 丰富的相关词能为写作中的词语优化提供较有力的支持。还可作为自然语言处理的资源或汉语教学的辅助工具。该词库已在有些企业和科研机构中得到应用。
CWB中义项与词长的分布如下:
义项分布:
义项数 词数 百分比
1 74635 81.38
2 12911 14.08
3 2671 2.91
4 766 0.84
5 301 0.33
6 183 0.20
7 86 0.09
8 56 0.06
9 30 0.03
10 25 0.03
11 9 0.01
12 10 0.01
13 8 0.01
14 5 0.01
15 7 0.01
16 3
17 2
18 1
21 1
23 2
24 1
义项总数 116396, 词条总数 91713, 平均义项数 1.27
词长分布:
词长 词数 百分比
1 4424 4.82
2 58675 63.98
3 13835 15.09
4 11913 12.99
5 1373 1.50
6 594 0.65
7 420 0.46
8 129 0.14
9 251 0.27
10 29 0.03
11 49 0.05
12 9 0.01
13 9 0.01
15 2
16 1
平均词长 2.49。
在CWB中单词间的关系主要有:
1. 同义关系。指两个或更多的词意思相同或接近。例如:
电脑-电子计算机
甘薯-白薯 红薯 红苕 番薯 山芋 香薯 地瓜 山药 芋头 苕 山药蛋
目前同义关系涉及一半以上的词或义项。CWB对同义的要求一般比有的工具书严格些。其它工具书中的一些同义词, 可能因意义有差别而在该系统中被处理为上下位等。
CWB将一些最密切的同义词排在一起。例如在同义词集“功夫 工夫 闲暇…”中, 认为“功夫”和“工夫”最密切。于是当“功夫”作为主词时, “工夫”总是出现为第一个同义词; 当“闲暇”等是主词时, “功夫”和“工夫”总是在其同义词中紧挨着。所谓最密切的同义, 指内涵、非理性意义 (或附加意义) 等都相同, 基本对应一些教科书中的“完全同义”。
但CWB采取更宽松的标准,它们包括通常所说的异形词, 但还有若干其它类型, 目前涉及 5400 以上的词或义项。
CWB的同义词还包括:
-- 异形词;
-- 全称与简称、缩略语;
-- 术语与俗称;
-- 现代叫法和旧称、古称;
-- 普通话和某些方言词;
-- 不统一的译名;
-- 敬辞、谦辞;
…等等。
下面是一些有代表性的例子:
奥运会-奥林匹克运动会
天翻地覆-地覆天翻
成年累月-整年累月
伊妹儿-依妹儿
防患未然-防患于未然
拉大旗作虎皮-拉大旗,作虎皮
2. 上位(是一种)-下位(分成类型)关系。是较狭义的上下位。例如:
打-梆 抽 抽打 打 打击 夯 擂 拍打 扑打 敲
打-碰撞
正方形-矩形 菱形 正多边形
“打”可以划分成“梆”、“打”、“敲”等类型, 且“打”是一种“碰撞”。
您可能会纳闷: “打”的相关词中还有“打”, 难道它能以自身为相关词吗? 您只
要双击一下第二个“打”就可以看出, 它是表示惩罚的“打”, 与第一个“打”义
项不同。偶尔一个相关词也会出现不只一次, 这也不是因系统有问题, 而是相关词
对应不同的义项。
上位和下位通常是互逆的。如果 A 是一种 B, 则 B 可分成 A 等类型。上位
中也可包含不止一个词。CWB不回避多个上位。上位关系便于今后实现继承。目前大约 1/4 的词或义项带有多个上位。今后还会更多些。
可能有人会问: “打”就只有这些类型吗? 可以想象打石头、用锤子打等类型,为何不将它们都列举出来? 这里应该分辨两种情况。第一种是, CWB一般不收明显不像词的、较自由的词组, 单音节词中一般也不含不单独成词的语素。如果汉语中没有专门的词表示“打石头”, 该词库就没有列出它, 否则还可以类推出“打木头”、“打地面”等, 根本无法穷尽。即使是词, CWB也不可能什么词都收。另一种情况是, “用锤子打”在汉语中可用动词“锤”表示, 但“锤”是一种“敲”, 因此与“打”只有间接的关系。
上下位关系构成庞大的等级体系。越在下面的词就越专指, 也即外延就越小。
下面是从这种等级中抽取的片段:
信徒-教徒-佛教徒-僧尼-和尚-高僧
几何图形-多边形-三角形-等腰三角形-等边三角形
动物-脊索动物-脊椎动物-哺乳动物-马-骏马-千里马
事情-活动-文体-运动-田径运动-田径赛-径赛-长跑-马拉松
数量-物理量-标量-面积-地积
反应-答理-理茬-回答-答复-回电
玩耍-游玩-游览-郊游-春游-踏春-踏青
正确-合理-公平-公正-正直-刚直
不满-生气-气不忿-抱不平-打抱不平-拔刀相助
无法-力不从心-眼高手低-志大才疏
事与愿违-适得其反-弄巧成拙-聪明反被聪明误-机关算尽太聪明,反误了卿
卿性命
3. 整体(构成)-部分(由…构成)关系。例如:
手-虎口 手背 手掌 手指
键盘-键
在CWB中它们不限于物体、空间, 可以存在于时间、过程等中。有时它们也与上下位一样构成较深的等级, 例如:
宇宙-总星系-银河系-太阳系-地球-东半球-亚洲-中国-海南-南沙群岛-曾母暗沙
4. 集合(是…之一)-元素(包含)关系。例如:
五岳-泰山 华山 嵩山 恒山 衡山
孔孟-孔子 孟子
师生-教师学生
它们中有的与整体-部分比较接近, 但是一般不如整体-部分紧密。
张潮生对于CWB的评价:“由于理论问题的困扰, 尚未渐入佳境。作者还在不断修改该词库, 深感才疏学浅, 勉为其难, 决不敢掉以轻心或自鸣得意。岂能尽如人意, 但求无愧我心。在这个理论空白点尚多、数据庞杂多变、且还要做出比较精密的软件的领域, 努力追求、逼近完善是长期的任务, 无法一蹴而就。这一点是这种事情的性质所决定的, 不是一般谦虚的话。夸大的宣传只会误导用户和读者。语义学和知识库的一些问题也许还需要若干代人或更长时间的努力才可能解决。计算机获取和表示人类知识还任重而道远。语义词库所涵盖的知识还相当有限。对这些应有清醒的认识。目前自然语言处理中的各种方法和资源都有其局限性, 本系统当然也是如此。”
张潮生的CWB是没有任何资金支持的情况下开发出来的,他的研究精神值得我们学习。他立志献身科学,而不求个人的名利,并且表示,如果冯老师的学生在研究工作中需要CWB,他可以给予帮助。事实上,他已经无报酬地给我的学生很多的帮助。
张潮生现在广东潮州,是一位没有固定工作和收入的自由研究人员。
他的联系方式:
电子邮件:chaosheng_zhang@163.com
网址: http://www.cwbbase.com
中文词语库CWB简介[转]相关推荐
- pyhanlp 中文词性标注与分词简介
pyhanlp 中文词性标注与分词简介 pyhanlp实现的分词器有很多,同时pyhanlp获取hanlp中分词器也有两种方式 第一种是直接从封装好的hanlp类中获取,这种获取方式一共可以获取五种分 ...
- Py之SnowNLP:SnowNLP中文处理包的简介、安装、使用方法、代码实现之详细攻略
Py之SnowNLP:SnowNLP中文处理包的简介.安装.使用方法.代码实现之详细攻略 目录 SnowNLP的简介 SnowNLP的安装 SnowNLP的使用方法 关于训练 SnowNLP的简介 s ...
- python的中文文本挖掘库snownlp进行购物评论文本情感分析实例
昨晚上发现了snownlp这个库,很开心.先说说我开心的原因.我本科毕业设计做的是文本挖掘,用R语言做的,发现R语言对文本处理特别不友好,没有很多强大的库,特别是针对中文文本的,加上那时候还没有学机器 ...
- 【中文树库标记---CTB】
北大标注集 词性编码 词性名称 注解 词性编码 词性名称 注解 Ag 形语素 形容词语素.形容词代码为a,语素代码为g前面置以A a 形容词 取英语形容词adjective的第1个字母 ad 副形词 ...
- python turtle库介绍_turtle库使用简介
turtle库使用简介 2020-09-22 python之绘制图形库turtleturtle库是python的基础绘图库,官方手册这个库被介绍为一个最常用的用来给孩子们介绍编程知识的方法库,其主要是 ...
- 架构师成长记_第八周_11_ES- ik中文分词器与自定义中文词库
文章目录 ik中文分词器 1. 安装ik中文分词器(7.4.2版本) 2. 使用ik中文分词器 2.1 分词器: ik_max_word 2.1 分词器: ik_smart 自定义中文词库 自定义词库 ...
- Py之zhon:zhon库的简介、安装、使用方法之详细攻略
Py之zhon:zhon库的简介.安装.使用方法之详细攻略 目录 zhon库的简介 zhon库的安装 zhon库的使用方法 1.在字符串中查找CJK字符.验证拼音音节.单词或句子: zhon库的简介 ...
- 学习笔记——zhon库的简介、安装、使用方法之详细攻略
zhon库的简介 Zhon是一个Python库,它提供了中文文本处理中常用的常量. 包括常用常量: 中日韩文字和部首 中文标点符号 汉语句子规则表达模式 拼音元音.辅音.小写.大写和标点符号 拼音音节 ...
- db2top详细使用方法_Py之PIL:Python的PIL库的简介、安装、使用方法详细攻略
Py之PIL:Python的PIL库的简介.安装.使用方法详细攻略 目录 PIL库的简介 PIL库的安装 PIL库的用方法 1.几何图形的绘制与文字的绘制 2.绘制图形的各种案例 PIL库的简介 PI ...
最新文章
- UA MATH523A 实分析3 积分理论例题 一个测度与积分的综合计算题
- 【Cocosd2d实例教程七】Cocos2d实现超炫的粒子效果!!
- matlab画倾斜的椭球,在MATLAB中绘制椭圆和椭球
- 消息队列重要机制讲解以及MQ设计思路(kafka、rabbitmq、rocketmq)
- java控制cmd导出dmp文件_cmd的操作命令导出导入.dmp文件
- 解决:阿里云ECS服务器 远程连接不上、极慢 (主机监控的实现)
- iOS中WebKit框架应用与解析
- WordPress插件、Erphp loggedin汉化版插件、 异地IP登录自动禁封用户
- ubuntu16.04下安装windows软件,以及卸载.
- 华为小米入场,能拯救乐视互联网电视挖的坑吗?
- 巨头垂涎却不能染指,loT数据库风口已至
- 令人敬畏的泰格伍兹 万维钢_资源商店应用程序部分推出了令人敬畏的一周销售
- IntelliJ IDEA主题背景设置豆沙绿护眼色
- Python数据分析5-数据分组与聚合
- GIt登录不了,报错:Whoops, something went wrong on our end.
- 东西方企业运营的根深蒂固的差异
- 畅购商城(五):Elasticsearch实现商品搜索
- css修改element组件中el-date-picker中的placeholder样式失效
- 清华大学出版数据结构第五版的链表的使用方法_JavaScript 中的数据结构:写给前端软件工程师...
- 一个基于Python数据大屏可视化开源项目
热门文章
- 打造快时尚下的柔性供应链
- Vue路由之axios配置JWT身份验证
- 最常见的客服系统功能
- C#与halcon联合(4)点距两线角度,交点算子知悉
- Centos7.x快速配置Django+Nginx+Uwsgi服务
- 市值跌跌不止,《姜子牙》救不了光线传媒
- R可视化02|ggplot2-ggplot2快速绘图
- 解决Matlab deembedsparams函数报错
- JavaScriptDay08:js运动基础,单物体运动框架,多物体运动框架,改变单一任意值运动框架,改变多值运动框架,完美运动框架
- JSP+ssm计算机毕业设计高校设备采购审批管理系统r1er5【源码、数据库、LW、部署】