【自然语言处理】词性标注(北大,宾州)
文章目录
- 词性标注规范
- 前言
- 北大词性标注集
- 宾州词性标注集
词性标注规范
前言
词性标注在中文领域暂无统一的标注标准,最常见较为主流的是北大和宾州词性标注集。
北大词性标注集
词性编码 | 词性名称 | 注解 |
---|---|---|
Ag | 形语素 | 形容词语素。形容词代码为a,语素代码为g前面置以A |
a | 形容词 | 取英语形容词adjective的第1个字母 |
ad | 副形词 | 直接作状语的形容词。形容词代码a和副词代码d并在一起 |
an | 名形词 | 具有名词功能的形容词。形容词代码a和名词代码n一起 |
b | 区别词 | 取汉字“别”的声母 |
c | 连词 | 去英语连词conjunction的第1个字母 |
Dg | 副语素 | 副词性语素。副词代码为d,语素代码g前面置以D |
d | 副词 | 取adverb的第2个字母,因其第1个字母已用于形容词 |
e | 叹词 | 取英语叹词exclamation的第1个字母。 |
f | 方位词 | 取汉字“方” |
g | 语素 | 绝大多数语素都能作为合成词的“词根”,取汉字“根”的声母 |
h | 前接成分 | 取英语head的第1个字母 |
i | 成语 | 取英语成语idiom的第1个字母 |
j | 简称略语 | 取汉字“简”的声母 |
k | 后接成分 | |
l | 习用语 | 习用语尚未成为成语,有点“临时性”,取“临”的声母 |
m | 数词 | 取英语numeral的第3个字母,n,u已有他用 |
Ng | 名语素 | 名词性语素。名词代码为n,语素代码g前面置以N |
n | 名词 | 取英语名词noun的第1个字母 |
nr | 人名 | 名词代码n和“人(ren)”的声母并在一起 |
ns | 地名 | 名词代码n和处所词代码s并在一起 |
nt | 机构团体 | “团”的声母为t,名词代码n和t并在一起 |
nz | 其他专名 | “专”的声母的第1个字母为z,名词代码n和z并在一起 |
o | 拟声词 | 取英语拟声词onomatopoeia的第1个字母。 |
p | 介词 | 取英语介词prepositional的第1个字母 |
q | 量词 | 取英语quantity的第1个字母 |
r | 代词 | 取英语代词pronoun的第2个字母,因p以用于介词 |
s | 处所词 | 取英语space的第1个字母 |
Tg | 时语素 | 时间词性语素。时间词代码为t,在语素的代码g前面置以T |
t | 时间词 | 取英语time的第1个字母 |
u | 助词 | 取英语助词auxiliary |
Vg | 动语素 | 动词性语素。动词代码为v。在语素代码g前面置以V |
v | 动词 | 取英语动词verb的第1个字母。 |
vd | 副动词 | 直接作状语的动词。动词和副词的代码并在一起。 |
vn | 名动词 | 指具有名词功能的动词。动词和名词的代码放在一起。 |
w | 标点符号 | |
x | 非语素字 | 非语素字只是一个符号,字母x通常用于代表未知数、符号 |
y | 语气词 | 取汉字“语”的声母 |
z | 状态词 | 取汉字“状”的声母的前一个字母。 |
un | 未知词 | 不可识别词及用户自定义词组。取英文Unknown首两个字母。 |
说明:在有些书中比如《python自然语言处理实战核心技术算法》这本书中,对于北大词性标注集的介绍的标记全是小写。这在此文中get到Ag,Dg,Ng, Vg
四处是如此的写法。
宾州词性标注集
标记 | 英语解释 | 中文解释 |
---|---|---|
AD | adverbs | 副词 |
AS | Aspect marker | 体态词,体标记(例如:了,在,着,过) |
BA | 把 in ba-const | “把”,“将”的词性标记 |
CC | Coordinating conjunction | 并列连词,“和” |
CD | Cardinal numbers | 数字,“一百” |
CS | Subordinating conj | 从属连词(例子:若,如果,如…) |
DEC | 的 for relative-clause etc | “的”词性标记 |
DEG | Associative | 联结词“的” |
DER | in V-de construction, and V-de-R | “得” |
DEV | before VP | 地 |
DT | Determiner | 限定词,“这” |
ETC | Tag for words, in coordination phrase | 等,等等 |
FW | Foreign words | 例子:ISO |
IJ | interjetion | 感叹词 |
JJ | Noun-modifier other than nouns | |
LB | in long bei-construction | 例子:被,给 |
LC | Localizer | 定位词,例子:“里” |
M | Measure word(including classifiers) | 量词,例子:“个” |
MSP | Some particles | 例子:“所” |
NN | Common nouns | 普通名词 |
NR | Proper nouns | 专有名词 |
NT | Temporal nouns | 时序词,表示时间的名词 |
OD | Ordinal numbers | 序数词,“第一” |
ON | Onomatopoeia | 拟声词,“哈哈” |
P | Preposition (excluding 把 and 被) | 介词 |
PN | pronouns | 代词 |
PU | Punctuations | 标点 |
SB | in long bei-construction | 例子:“被,给” |
SP | Sentence-final particle | 句尾小品词,“吗” |
VA | Predicative adjective | 表语形容词,“红” |
VC | Copula | 系动词,“是” |
VE | 有 as the main verb | “有” |
VV | Other verbs | 其他动词 |
【自然语言处理】词性标注(北大,宾州)相关推荐
- 句法分析语料:宾州树库、UD树库
句法分析语料:宾州树库.UD树库 目录 句法分析语料:宾州树库.UD树库 宾州树库 UD树库
- 美国宾州计算机学校,美国留学,看看宾州有哪些顶尖学校?
原标题:美国留学,看看宾州有哪些顶尖学校? 出国留学,去往美国留学,美国宾州有哪些顶尖学校? 宾州顶尖学校汇总 宾夕法尼亚州(Pennsylvania,亦简称宾州)位于美国东部,为立国13州之一.宾夕 ...
- python自然语言处理.词性标注
想要了解更多 NLP 相关的内容,请访问 NLP专题 ,免费提供59页的NLP文档下载. 访问 NLP 专题,下载 59 页免费 PDF 什么是词性标注? 维基百科上对词性的定义为:In tradit ...
- 博士申请 | 宾州州立大学 (PSU) 招收机器学习/对抗学习方向全奖博士
合适的工作难找?最新的招聘信息也不知道? AI 求职为大家精选人工智能领域最新鲜的招聘信息,助你先人一步投递,快人一步入职! 宾夕法尼亚州立大学 宾夕法尼亚州立大学 (PSU, Penn State) ...
- 自然语言分词词性标注指代
自然语言文本处理通常需要进行词性标注,下面是常见标注 ROOT:要处理文本的语句 IP:简单从句 NP:名词短语 VP:动词短语 PU:断句符,通常是句号.问号.感叹号等标点符号 LCP:方位词短语 ...
- 自然语言处理——词性标注、词干提取、词形还原
目录 词性标注 方法 工具 实例 词干提取和词形还原 算法 步骤 词性标注 一般而言,文本里的动词可能比较重要,而助词可能不太重要: 我今天真好看 我今天真好看啊 甚至有时候同一个词有着不同的意思: ...
- 中文宾州树库标记含义
来源:http://blog.csdn.net/neutblue/article/details/7375085 1 Part-Of-Speech tags: 33 tags 标记 英语 ...
- 词性标记说明(Penn Treebank Tagset 宾州树库)
转自:http://blog.csdn.net/wskings/article/details/17607021 最近在做命名实体识别,用到Stanford-CoreNlp词性标记,由于不是语言学专业 ...
- 【宾州中文树库CTB】数据读取
CTB8.0 共有如下类型文件: Newswire: [0001-0325, 0400-0454, 0500-0540, 0600-0885, 0900-0931, 4000-4050]--后缀.nw ...
最新文章
- 一种简单的数据库性能测试方法
- 在Chrome 中调试Javascript
- mysql limit 越大越慢_mysql 优化之14:php mysql limit 分页优化,页面值越大查询越慢...
- Kafka AKHQ 安装部署
- PSINS捷联惯导更新算法
- 《北京市住房租赁条例》
- vue+lodop打印快递面单
- Python3爬虫之咪咕音乐
- 鼠标右键失灵java_鼠标右键失灵怎么办
- Clean Code 读书笔记四
- ESP8266制作物联网万能遥控器
- request.setAttribute()的用法
- VSCode中针对C语言的代码格式化配置
- springboot结合Hikari连接池出现java.sql.SQLException: Incorrect string value: ‘\xF0\x9F\x8F\x98\xEF\xB8...‘
- 计算机科技英语文章及翻译,计算机专业英语短文翻译.doc
- 振动方程线性多步法C语言,振动方程的线性多步法数值求解.pdf
- 打开虚拟机出现bogon login怎么整?
- pixelXL 下载编译源代码刷机烧录记录
- android超长字符串分段处理
- ajp_read_header: ajp_ilink_receive failed