新博客:程序员小G

汉语文本词性标注标记集


Ag 形语素 形容词性语素。形容词代码为a,语素代码g前面置以A。

a 形容词 取英语形容词adjective的第1个字母。

ad 副形词 直接作状语的形容词。形容词代码a和副词代码d并在一起。

an 名形词 具有名词功能的形容词。形容词代码a和名词代码n并在一起。

b 区别词 取汉字“别”的声母。

c 连词 取英语连词conjunction的第1个字母。

Dg 副语素 副词性语素。副词代码为d,语素代码g前面置以D。

d 副词 取adverb的第2个字母,因其第1个字母已用于形容词。

e 叹词 取英语叹词exclamation的第1个字母。

f 方位词 取汉字“方”

g 语素 绝大多数语素都能作为合成词的“词根”,取汉字“根”的声母。

h 前接成分 取英语head的第1个字母。

i 成语 取英语成语idiom的第1个字母。

j 简称略语 取汉字“简”的声母。

k 后接成分

l 习用语 习用语尚未成为成语,有点“临时性”,取“临”的声母。

m 数词 取英语numeral的第3个字母,n,u已有他用。

Ng 名语素 名词性语素。名词代码为n,语素代码g前面置以N。

n 名词 取英语名词noun的第1个字母。

nr 人名 名词代码n和“人(ren)”的声母并在一起。

ns 地名 名词代码n和处所词代码s并在一起。

nt 机构团体 “团”的声母为t,名词代码n和t并在一起。

nz 其他专名 “专”的声母的第1个字母为z,名词代码n和z并在一起。

o 拟声词 取英语拟声词onomatopoeia的第1个字母。

p 介词 取英语介词prepositional的第1个字母。

q 量词 取英语quantit的第1个字母。

r 代词 取英语代词pronoun的第2个字母,因p已用于介词。

s 处所词 取英语space的第1个字母。

Tg 时语素 时间词性语素。时间词代码为t,在语素的代码g前面置以T。

t 时间词 取英语time的第1个字母。

u 助词 取英语助词auxiliary

Vg 动语素 动词性语素。动词代码为v。在语素的代码g前面置以V。

v 动词 取英语动词verb的第一个字母。

vd 副动词 直接作状语的动词。动词和副词的代码并在一起。

vn 名动词 指具有名词功能的动词。动词和名词的代码并在一起。

w 标点符号

x 非语素字 非语素字只是一个符号,字母x通常用于代表未知数、符号。

y 语气词 取汉字“语”的声母。

z 状态词 取汉字“状”的声母的前一个字母。
-------------------------------------------------------------------------------
a:        形容词
b:        区别词
c:        连词
d:        副词
e:        叹词
g:        语素字
h:        前接成分
i:        习用语
j:        简称
k:        后接成分
m:        数词
n:        普通名词
nd:        方位名词
nh:        人名
ni:        机构名
nl:        处所名词
ns:        地名
nt:        时间词
nz:        其他专名
o:        拟声词
p:        介词
q:        量词
r:        代词
u:        助词
v:        动词
wp:        标点符号
ws:        字符串
x:        非语素字

ICTCLAS 汉语词性标注集 中科院相关推荐

  1. 中科院分词ICTCLAS汉语分词系统简单配置

    汉语分词一直来说都是进行文本分析的瓶颈,这里介绍一个汉语分词系统ICTCLAS,全球很受欢迎的汉语分词开源系统,曾获得首界国际分词大赛综合排名第一,国家973评测第一名:支持词典,多级词性标注,支持人 ...

  2. ictclas,ansj,结巴分词,StanfordNLP中文分词以及所用词性标注集

    NLPIR(ICTCLAS),参见java实现NLPIR(ICTCLAS)分词:http://www.bubuko.com/infodetail-665665.html,词性标注使用北大词性标注集.在 ...

  3. HanLP词性标注集

    HanLP使用的HMM词性标注模型训练自2014年人民日报切分语料,随后增加了少量98年人民日报中独有的词语.所以,HanLP词性标注集兼容<ICTPOS3.0汉语词性标记集>,并且兼容& ...

  4. 词性标注集句和句法分析标注集

    两大标注集 说明 通用词性标签(Universal POS tags) NLTK词性标注集 一个简单的概括 以字母顺序展开解释 句法分析树标注集 依存句法CoNLL-U 格式(CoNLL2014) 参 ...

  5. 最新最全论文合集——中科院半导体所-高速电路与神经网络实验室

    AMiner平台(https://www.aminer.cn)由清华大学计算机系研发,拥有我国完全自主知识产权.平台包含了超过2.3亿学术论文/专利和1.36亿学者的科技图谱,提供学者评价.专家发现. ...

  6. java 中文分词 词性标注_ICTCLAS 中科院分词系统 代码 注释 中文分词 词性标注(转)...

    中科院分词系统概述 这几天看完了中科院分词程序的代码,现在来做一个概述,并对一些关键的数据结构作出解释 〇.总体流程 考虑输入的一句话,sSentence="张华平欢迎您" 总体流 ...

  7. Python【jieba】词性标注表

    文章目录 jieba词性标注表(0.39版) 读取jieba词库,生成词性标注表,保存为excel 带词性的分词 词与词性间映射 en2cn字典映射 0.42版后paddle模式词性和专名类别标签 其 ...

  8. 系统学习NLP(十)--词性标注算法综述

    词性标注:将句子中兼类词的词性根据上下文唯一地确定下来.词性(part-of-speech)是词汇基本的语法属性,通常也称为词类.词性标注就是在给定句子中判定每个词的语法范畴,确定其词性并加以标注的过 ...

  9. 实现中文分词、词性标注、关键词提取、句法分析等智能预处理

    实现中文分词.词性标注.关键词提取.句法分析等智能预处理的一个简单的小实验作业 实验报告 一.实验目的 二.实验环境 三. 实验内容(内容以txt1分析为例) 1.文本素材自动分词 (1)分词初步处理 ...

  10. jieba分词原理 ‖ 词性标注

    jieba分词原理 | 基于前缀词典及动态规划的分词实现 jieba分词原理 | 基于汉字成词能力的HMM模型识别未登录词实现 jieba分词原理 | 词性标注 jieba分词原理 | 关键词抽取 1 ...

最新文章

  1. linux下锐捷拨号的问题
  2. CVPR 2018 《High-speed Tracking with Multi-kernel Correlation Filters》论文笔记
  3. 乐在其中设计模式(C#)系列文章索引
  4. mysql explain语句_Mysql explain 语句详解
  5. vbs关不掉的计算机窗口,恶搞之关不掉的窗口.vbs脚本
  6. Soul回应赴美上市传闻:不是约会软件 没有确定的上市计划
  7. 第九城市:比特币矿机共贡献大约693 PH/s的总算力
  8. 【swupdate文档 五】从可信的来源更新镜像
  9. 6713芯片手册_tms320c6713 gpio_tms320c6713_dsp6713中文手册
  10. 离散数学程序实现——求关系矩阵的自反和对称闭包——c
  11. 怎么学习英文--英国人教你如何学习英文
  12. DRF 框架总结 - 视图集路由 Routers
  13. python截取图片中的圆形区域
  14. 基于STM32MP157的GPU编程之DRM驱动调试
  15. python爬虫 打击无良网站弹窗广告
  16. matlab差速器建模仿真,matlab 两轮差速模型运动模型公式和运动轨迹模拟
  17. 可可的设计模式:MVC和MVVM
  18. 亚马逊条码标签(SSCC/FBA)的制作打印
  19. Windows系统设置NTP服务器
  20. 微信小程序即时聊天对话窗口静态源码

热门文章

  1. 【收山之作】我手上所有GALGAME 游戏资源封装工具下载
  2. 栈--后进先出的线性表
  3. CI管道-Github+ACR
  4. R之相关性的显著性检验
  5. mysql中文表头转为英文字名_中文名字转换英文名字
  6. c语言如何画函数图形,c语言绘制函数曲线
  7. excel 柱状图 多个水滴图组合
  8. oracle彻底删除dbf文件,ORACLE 删除数据文件模拟灾难恢复
  9. 踩了个DNS解析的坑,但我还是没想通
  10. C++模板(函数模板/类模板)