download 
计算所汉语词性标记集

Version 3.0

制订人:刘群 张华平 张浩

计算所汉语词性标记集... 1

0.    说明... 1

1.    名词  (1个一类,7个二类,5个三类) 2

2.    时间词(1个一类,1个二类) 2

3.    处所词(1个一类) 3

4.    方位词(1个一类) 3

5.    动词(1个一类,9个二类) 3

6.    形容词(1个一类,4个二类) 3

7.    区别词(1个一类,2个二类) 3

8.    状态词(1个一类) 3

9.    代词(1个一类,4个二类,6个三类) 3

10.          数词(1个一类,1个二类) 4

11.          量词(1个一类,2个二类) 4

12.          副词(1个一类) 4

13.          介词(1个一类,2个二类) 4

14.          连词(1个一类,1个二类) 4

15.          助词(1个一类,15个二类) 4

16.          叹词(1个一类) 4

17.          语气词(1个一类) 5

18.          拟声词(1个一类) 5

19.          前缀(1个一类) 5

20.          后缀(1个一类) 5

21.          字符串(1个一类,2个二类) 5

22.          标点符号(1个一类,16个二类) 5

0.          说明

计算所汉语词性标记集(共计99个,22个一类,66个二类,11个三类)主要用于中国科学院计算技术研究所研制的汉语词法分析器、句法分析器和汉英机器翻译系统。本标记集主要参考了以下词性标记集:

1.       北大《人民日报》语料库词性标记集;

2.       北大2002新版词性标记集(草稿);

3.       清华大学汉语树库词性标记集;

4.       教育部语用所词性标记集(国家推荐标准草案2002版);

5.       美国宾州大学中文树库(ChinesePennTreeBank)词性标记集;

由于计算所的汉语词法分析器主要采用北大《人民日报》语料库进行参数训练,因此本

词性标记集主要以北大《人民日报》语料库的词性标记集为蓝本,并参考了北大《汉语语法信息词典》中给出的汉语词的语法信息。

本标记集在制定过程中主要考虑了以下几方面的因素:

1.       有助于提高汉语词法分析器的切分和标注正确率;

2.       有助于提高汉语句法分析器的正确率;

3.       有助于汉英机器翻译系统进行翻译;

4.       易于从北大《人民日报》语料库词性标记集进行转换;

5.       对于语法功能不同的词,在不造成词法分析和句法分析歧义区分困难的情况下,尽可能细分子类。

基于以上考虑,我们在标注过程中尽量避免那些容易出错的词性标记,而采用那些不容易出错、而对提高汉语词法句法分析正确率有明显作用的标记。例如,在动词的子类中,我们参考了宾州大学中文树库的做法,把汉语动词“是”和“有”分别做成单独的标记,而没有采用“系动词”的标记。因为同样是“是”这个动词,其句法功能很多,作“系动词”只是其中一种功能,而要区分这些功能是非常困难的,会导致词法分析的正确率下降。

在名词子类中,我们区分了“汉语人名”、“日语人名”和“翻译人名”,这不仅仅是因为这三种人名要采用不同的参数进行训练与识别,而且在汉英机器翻译中也要采用不同的分析算法进行翻译。又如,我们把表示时间的“数词+‘年’”(如“1995年”)合并成一个时间词,而表示年头的“数词+‘年’”分别标注为“数词”和“量词”,这是因为我们通过实验发现这种区分在词法分析阶段通过统计方法可以达到较高的正确率,而且这种区分对于后续的句法分析和机器翻译有非常重要的作用。

对于某些词类(助词和标点符号),基本上是一个封闭集,而这些词类中各个词的语法功能相差很大,在这种情况下,我们尽可能地细分其子类。

另外,与其他词性标记集类似,在我们的标记体系中,小类只是大类中一些有必要区分的一些特例,但小类的划分不满足完备性。

1.          名词  (1个一类,7个二类,5个三类)

名词分为以下子类:

n 名词

nr 人名

nr1 汉语姓氏

nr2 汉语名字

nrj 日语人名

nrf 音译人名

ns 地名

nsf 音译地名

nt 机构团体名

nz 其它专名

nl 名词性惯用语

ng 名词性语素

2.          时间词(1个一类,1个二类)

t 时间词

tg 时间词性语素

3.          处所词(1个一类)

s 处所词

4.          方位词(1个一类)

f 方位词

5.          动词(1个一类,9个二类)

v 动词

vd 副动词

vn 名动词

vshi 动词“是”

vyou 动词“有”

vf 趋向动词

vx 形式动词

vi 不及物动词(内动词)

vl 动词性惯用语

vg 动词性语素

6.          形容词(1个一类,4个二类)

a 形容词

ad 副形词

an 名形词

ag 形容词性语素

al 形容词性惯用语

7.          区别词(1个一类,2个二类)

b 区别词

bl 区别词性惯用语

8.          状态词(1个一类)

z 状态词

9.          代词(1个一类,4个二类,6个三类)

r 代词

rr 人称代词

rz 指示代词

rzt 时间指示代词

rzs 处所指示代词

rzv 谓词性指示代词

ry 疑问代词

ryt 时间疑问代词

rys 处所疑问代词

ryv 谓词性疑问代词

rg 代词性语素

10.     数词(1个一类,1个二类)

m 数词

mq 数量词

11.     量词(1个一类,2个二类)

q 量词

qv 动量词

qt 时量词

12.     副词(1个一类)

d 副词

13.     介词(1个一类,2个二类)

p 介词

pba 介词“把”

pbei 介词“被”

14.     连词(1个一类,1个二类)

c 连词

cc 并列连词

15.     助词(1个一类,15个二类)

u 助词

uzhe 着

ule 了 喽

uguo 过

ude1 的 底

ude2 地

ude3 得

usuo 所

udeng 等 等等 云云

uyy 一样 一般 似的 般

udh 的话

uls 来讲 来说 而言 说来

uzhi 之

ulian 连 (“连小学生都会”)

16.     叹词(1个一类)

e 叹词

17.     语气词(1个一类)

y 语气词(delete yg)

18.     拟声词(1个一类)

o 拟声词

19.     前缀(1个一类)

h 前缀

20.     后缀(1个一类)

k 后缀

21.     字符串(1个一类,2个二类)

x 字符串

xx 非语素字

xu 网址URL

22.     标点符号(1个一类,16个二类)

w 标点符号

wkz 左括号,全角:( 〔  [  {  《 【  〖 〈   半角:( [ { <</p>

wky 右括号,全角:) 〕  ] } 》  】 〗 〉 半角: ) ] { >

wyz 左引号,全角:“ ‘ 『

wyy 右引号,全角:” ’ 』

wj 句号,全角:。

ww 问号,全角:? 半角:?

wt 叹号,全角:! 半角:!

wd 逗号,全角:, 半角:,

wf 分号,全角:; 半角: ;

wn 顿号,全角:、

wm 冒号,全角:: 半角: :

ws 省略号,全角:……  …

wp 破折号,全角:——   --   ——-   半角:---  ----

wb 百分号千分号,全角:% ‰   半角:%

wh 单位符号,全角:¥ $ £  °  ℃  半角:$

ICTCLAS2008汉语词性标注集相关推荐

  1. HanLP词性标注集

    HanLP使用的HMM词性标注模型训练自2014年人民日报切分语料,随后增加了少量98年人民日报中独有的词语.所以,HanLP词性标注集兼容<ICTPOS3.0汉语词性标记集>,并且兼容& ...

  2. 词性标注集句和句法分析标注集

    两大标注集 说明 通用词性标签(Universal POS tags) NLTK词性标注集 一个简单的概括 以字母顺序展开解释 句法分析树标注集 依存句法CoNLL-U 格式(CoNLL2014) 参 ...

  3. ictclas,ansj,结巴分词,StanfordNLP中文分词以及所用词性标注集

    NLPIR(ICTCLAS),参见java实现NLPIR(ICTCLAS)分词:http://www.bubuko.com/infodetail-665665.html,词性标注使用北大词性标注集.在 ...

  4. Python【jieba】词性标注表

    文章目录 jieba词性标注表(0.39版) 读取jieba词库,生成词性标注表,保存为excel 带词性的分词 词与词性间映射 en2cn字典映射 0.42版后paddle模式词性和专名类别标签 其 ...

  5. 系统学习NLP(十)--词性标注算法综述

    词性标注:将句子中兼类词的词性根据上下文唯一地确定下来.词性(part-of-speech)是词汇基本的语法属性,通常也称为词类.词性标注就是在给定句子中判定每个词的语法范畴,确定其词性并加以标注的过 ...

  6. 实现中文分词、词性标注、关键词提取、句法分析等智能预处理

    实现中文分词.词性标注.关键词提取.句法分析等智能预处理的一个简单的小实验作业 实验报告 一.实验目的 二.实验环境 三. 实验内容(内容以txt1分析为例) 1.文本素材自动分词 (1)分词初步处理 ...

  7. jieba分词原理 ‖ 词性标注

    jieba分词原理 | 基于前缀词典及动态规划的分词实现 jieba分词原理 | 基于汉字成词能力的HMM模型识别未登录词实现 jieba分词原理 | 词性标注 jieba分词原理 | 关键词抽取 1 ...

  8. jieba分词-词性标注

    结巴分词4--词性标注 作者:zhbzz2007 出处:http://www.cnblogs.com/zhbzz2007 1 简介 词性(part-of-speech)是词汇基本的语法范畴,通常也称为 ...

  9. 论文都看不懂,你还搞什么人工智能?

    GitChat 作者:李嘉璇 原文:从零开始,如何阅读一篇人工智能论文,及构建论文与代码的实现 关注公众号:GitChat 技术杂谈,一本正经的讲技术 本次 Chat 的第一部分: 首先讲解如何从零基 ...

  10. Python大数据-电商产品评论情感数据分析

    目录 一.项目背景 二.项目目标 三.分析方法与分析过程 四.数据清洗 数据抓取 评论去重 分词 停用词 词云图绘制 五. 数据分析 评论数据情感倾向分析 匹配情感词 修正情感倾向 LDA模型进行主题 ...

最新文章

  1. DT技术助力企业创新转型
  2. php unable to save,php – Laravel save()未定义
  3. 思科交换机ping得通 traceroute不通_网络中经常接触的Ping 一次性教你弄懂如何检测三层网络...
  4. java引用传递106_(转载)java的值传递与引用传递
  5. 闪存必须解决的三大问题
  6. Mysql 给你100万条数据的一张表,你将如何分页查询优化?
  7. 拜登政府撤销对Tik Tok和Wechat禁令 启动对外国应用审查
  8. mysql lvs 读写分离_mysql高可用架构方案之二(keepalived+lvs+读写分离+负载均衡)
  9. PPT制作设计感需从哪些角度提升呢?
  10. 关于卸载office的问题:office无法卸载的办法(附office安装和注册表查看)
  11. unity3D制作拼图游戏
  12. 企业口碑营销如何做好,可运用这5T理论
  13. Flutter:表单Form
  14. HyperLynx(十六)PCI-E的设计与仿真
  15. vue提示Named Route ‘News‘ has a default child route. When navigating to this named route...问题
  16. 找工作收到多个 Offer,我该怎么办?
  17. ASP.NET Core : 八.图说管道,唐僧扫塔的故事
  18. 32、Java——迷你图书管理器(对象+JDBC)
  19. JS调用摄像头、实时视频流上传(一次不成功的试验)
  20. oracle数据库merge into,merge into 的用法

热门文章

  1. STM32与DS1302设计时钟芯片,超详细
  2. 物联卡代理商究竟如何选择?51物联卡告诉你正确答案
  3. Android开发打开手机自带浏览器
  4. centos7 查看cpu温度
  5. HTML指南针源码zip,指南针指标公式源码
  6. cad画钟表_coreldraw怎么画钟表?coreldraw画钟表教程
  7. java 图片下载爬虫_java入门爬虫(爬取网页的图片下载到本地磁盘)
  8. 计算机表格两行互换步骤,表格excel数据互换位置-EXcel表格中,怎么把两行互换...
  9. 德意志帝国(第一帝国)(962年-1806年)
  10. 安卓手机各大应用市场APP审核遇到的坑