ICTCLAS 汉语词性标注集 中科院
新博客:程序员小G
汉语文本词性标注标记集
Ag 形语素 形容词性语素。形容词代码为a,语素代码g前面置以A。
a 形容词 取英语形容词adjective的第1个字母。
ad 副形词 直接作状语的形容词。形容词代码a和副词代码d并在一起。
an 名形词 具有名词功能的形容词。形容词代码a和名词代码n并在一起。
b 区别词 取汉字“别”的声母。
c 连词 取英语连词conjunction的第1个字母。
Dg 副语素 副词性语素。副词代码为d,语素代码g前面置以D。
d 副词 取adverb的第2个字母,因其第1个字母已用于形容词。
e 叹词 取英语叹词exclamation的第1个字母。
f 方位词 取汉字“方”
g 语素 绝大多数语素都能作为合成词的“词根”,取汉字“根”的声母。
h 前接成分 取英语head的第1个字母。
i 成语 取英语成语idiom的第1个字母。
j 简称略语 取汉字“简”的声母。
k 后接成分
l 习用语 习用语尚未成为成语,有点“临时性”,取“临”的声母。
m 数词 取英语numeral的第3个字母,n,u已有他用。
Ng 名语素 名词性语素。名词代码为n,语素代码g前面置以N。
n 名词 取英语名词noun的第1个字母。
nr 人名 名词代码n和“人(ren)”的声母并在一起。
ns 地名 名词代码n和处所词代码s并在一起。
nt 机构团体 “团”的声母为t,名词代码n和t并在一起。
nz 其他专名 “专”的声母的第1个字母为z,名词代码n和z并在一起。
o 拟声词 取英语拟声词onomatopoeia的第1个字母。
p 介词 取英语介词prepositional的第1个字母。
q 量词 取英语quantit的第1个字母。
r 代词 取英语代词pronoun的第2个字母,因p已用于介词。
s 处所词 取英语space的第1个字母。
Tg 时语素 时间词性语素。时间词代码为t,在语素的代码g前面置以T。
t 时间词 取英语time的第1个字母。
u 助词 取英语助词auxiliary
Vg 动语素 动词性语素。动词代码为v。在语素的代码g前面置以V。
v 动词 取英语动词verb的第一个字母。
vd 副动词 直接作状语的动词。动词和副词的代码并在一起。
vn 名动词 指具有名词功能的动词。动词和名词的代码并在一起。
w 标点符号
x 非语素字 非语素字只是一个符号,字母x通常用于代表未知数、符号。
y 语气词 取汉字“语”的声母。
z 状态词 取汉字“状”的声母的前一个字母。
-------------------------------------------------------------------------------
a: 形容词
b: 区别词
c: 连词
d: 副词
e: 叹词
g: 语素字
h: 前接成分
i: 习用语
j: 简称
k: 后接成分
m: 数词
n: 普通名词
nd: 方位名词
nh: 人名
ni: 机构名
nl: 处所名词
ns: 地名
nt: 时间词
nz: 其他专名
o: 拟声词
p: 介词
q: 量词
r: 代词
u: 助词
v: 动词
wp: 标点符号
ws: 字符串
x: 非语素字
ICTCLAS 汉语词性标注集 中科院相关推荐
- 中科院分词ICTCLAS汉语分词系统简单配置
汉语分词一直来说都是进行文本分析的瓶颈,这里介绍一个汉语分词系统ICTCLAS,全球很受欢迎的汉语分词开源系统,曾获得首界国际分词大赛综合排名第一,国家973评测第一名:支持词典,多级词性标注,支持人 ...
- ictclas,ansj,结巴分词,StanfordNLP中文分词以及所用词性标注集
NLPIR(ICTCLAS),参见java实现NLPIR(ICTCLAS)分词:http://www.bubuko.com/infodetail-665665.html,词性标注使用北大词性标注集.在 ...
- HanLP词性标注集
HanLP使用的HMM词性标注模型训练自2014年人民日报切分语料,随后增加了少量98年人民日报中独有的词语.所以,HanLP词性标注集兼容<ICTPOS3.0汉语词性标记集>,并且兼容& ...
- 词性标注集句和句法分析标注集
两大标注集 说明 通用词性标签(Universal POS tags) NLTK词性标注集 一个简单的概括 以字母顺序展开解释 句法分析树标注集 依存句法CoNLL-U 格式(CoNLL2014) 参 ...
- 最新最全论文合集——中科院半导体所-高速电路与神经网络实验室
AMiner平台(https://www.aminer.cn)由清华大学计算机系研发,拥有我国完全自主知识产权.平台包含了超过2.3亿学术论文/专利和1.36亿学者的科技图谱,提供学者评价.专家发现. ...
- java 中文分词 词性标注_ICTCLAS 中科院分词系统 代码 注释 中文分词 词性标注(转)...
中科院分词系统概述 这几天看完了中科院分词程序的代码,现在来做一个概述,并对一些关键的数据结构作出解释 〇.总体流程 考虑输入的一句话,sSentence="张华平欢迎您" 总体流 ...
- Python【jieba】词性标注表
文章目录 jieba词性标注表(0.39版) 读取jieba词库,生成词性标注表,保存为excel 带词性的分词 词与词性间映射 en2cn字典映射 0.42版后paddle模式词性和专名类别标签 其 ...
- 系统学习NLP(十)--词性标注算法综述
词性标注:将句子中兼类词的词性根据上下文唯一地确定下来.词性(part-of-speech)是词汇基本的语法属性,通常也称为词类.词性标注就是在给定句子中判定每个词的语法范畴,确定其词性并加以标注的过 ...
- 实现中文分词、词性标注、关键词提取、句法分析等智能预处理
实现中文分词.词性标注.关键词提取.句法分析等智能预处理的一个简单的小实验作业 实验报告 一.实验目的 二.实验环境 三. 实验内容(内容以txt1分析为例) 1.文本素材自动分词 (1)分词初步处理 ...
- jieba分词原理 ‖ 词性标注
jieba分词原理 | 基于前缀词典及动态规划的分词实现 jieba分词原理 | 基于汉字成词能力的HMM模型识别未登录词实现 jieba分词原理 | 词性标注 jieba分词原理 | 关键词抽取 1 ...
最新文章
- linux下锐捷拨号的问题
- CVPR 2018 《High-speed Tracking with Multi-kernel Correlation Filters》论文笔记
- 乐在其中设计模式(C#)系列文章索引
- mysql explain语句_Mysql explain 语句详解
- vbs关不掉的计算机窗口,恶搞之关不掉的窗口.vbs脚本
- Soul回应赴美上市传闻:不是约会软件 没有确定的上市计划
- 第九城市:比特币矿机共贡献大约693 PH/s的总算力
- 【swupdate文档 五】从可信的来源更新镜像
- 6713芯片手册_tms320c6713 gpio_tms320c6713_dsp6713中文手册
- 离散数学程序实现——求关系矩阵的自反和对称闭包——c
- 怎么学习英文--英国人教你如何学习英文
- DRF 框架总结 - 视图集路由 Routers
- python截取图片中的圆形区域
- 基于STM32MP157的GPU编程之DRM驱动调试
- python爬虫 打击无良网站弹窗广告
- matlab差速器建模仿真,matlab 两轮差速模型运动模型公式和运动轨迹模拟
- 可可的设计模式:MVC和MVVM
- 亚马逊条码标签(SSCC/FBA)的制作打印
- Windows系统设置NTP服务器
- 微信小程序即时聊天对话窗口静态源码