一、概述

1、什么是词性?

词性(part-of-speech)是词汇基本的语法属性,通常也称为词性。

2、什么是词性标注?

词性标注(part-of-speech tagging),又称为词类标注或者简称标注,是指为分词结果中的每个单词标注一个正确的词性的程序,也即确定每个词是名词、动词、形容词或者其他词性的过程。

3、为什么要标注?

词性标注是很多NLP任务的预处理步骤,如句法分析,经过词性标注后的文本会带来很大的便利性,但也不是不可或缺的步骤。

4、怎么标注?

词性标注这里基本可以照搬分词的工作,在汉语中,大多数词语只有一个词性,或者出现频次最高的词性远远高于第二位的词性。据说单纯选取最高频词性,就能实现80%准确率的中文词性标注程序。

主要可以分为基于规则和基于统计的方法,下面列举几种统计方法:

(1)基于最大熵的词性标注

(2)基于统计最大概率输出词性

(3)基于HMM的词性标注

5、词性标注的应用?

(1)句法分析预处理

(2)词汇获取预处理

(3)信息抽取预处理

二、汉语词性对照表

代码 名称 说明 举例
a 形容词 取英语形容词adjective的第1个字母 最/d 大/a 的/u
ad 副形词 直接作状语的形容词.形容词代码a和副词代码d并在一起 一定/d 能够/v 顺利/ad 实现/v 。/w
ag 形语素 形容词性语素。形容词代码为a,语素代码g前面置以a 喜/v 煞/ag 人/n
an 名形词 具有名词功能的形容词。形容词代码a和名词代码n并在一起 人民/n 的/u 根本/a 利益/n 和/c 国家/n 的/u 安稳/an 。/w
b 区别词 取汉字“别”的声母 副/b 书记/n 王/nr 思齐/nr
c 连词 取英语连词conjunction的第1个字母 全军/n 和/c 武警/n 先进/a 典型/n 代表/n
d 副词 取adverb的第2个字母,因其第1个字母已用于形容词 两侧/f 台柱/n 上/ 分别/d 雄踞/v 着/u
dg 副语素  副词性语素。副词代码为d,语素代码g前面置以d 用/v 不/d 甚/dg 流利/a 的/u 中文/nz 主持/v 节目/n 。/w
e 叹词 取英语叹词exclamation的第1个字母 嗬/e !/w
f 方位词 取汉字“方” 的声母 从/p 一/m 大/a 堆/q 档案/n 中/f 发现/v 了/u
g 语素 绝大多数语素都能作为合成词的“词根”,取汉字“根”的声母 例如dg 或ag
h 前接成分 取英语head的第1个字母 目前/t 各种/r 非/h 合作制/n 的/u 农产品/n
i 成语 取英语成语idiom的第1个字母 提高/v 农民/n 讨价还价/i 的/u 能力/n 。/w
j 简称略语 取汉字“简”的声母 民主/ad 选举/v 村委会/j 的/u 工作/vn
k 后接成分   权责/n 明确/a 的/u 逐级/d 授权/v 制/k
l 习用语 习用语尚未成为成语,有点“临时性”,取“临”的声母 是/v 建立/v 社会主义/n 市场经济/n 体制/n 的/u 重要/a 组成部分/l 。/w
m 数词 取英语numeral的第3个字母,n,u已有他用 科学技术/n 是/v 第一/m 生产力/n
n 名词 取英语名词noun的第1个字母 希望/v 双方/n 在/p 市政/n 规划/vn
ng 名语素 名词性语素。名词代码为n,语素代码g前面置以n 就此/d 分析/v 时/Ng 认为/v
nr 人名 名词代码n和“人(ren)”的声母并在一起 建设部/nt 部长/n 侯/nr 捷/nr
ns 地名 名词代码n和处所词代码s并在一起 北京/ns 经济/n 运行/vn 态势/n 喜人/a
nt 机构团体 “团”的声母为t,名词代码n和t并在一起 [冶金/n 工业部/n 洛阳/ns 耐火材料/l 研究院/n]nt
nx 字母专名   ATM/nx 交换机/n
nz 其他专名 “专”的声母的第1个字母为z,名词代码n和z并在一起 德士古/nz 公司/n
o 拟声词 取英语拟声词onomatopoeia的第1个字母 汩汩/o 地/u 流/v 出来/v
p 介词 取英语介词prepositional的第1个字母 往/p 基层/n 跑/v 。/w
q 量词 取英语quantity的第1个字母 不止/v 一/m 次/q 地/u 听到/v ,/w
r 代词 取英语代词pronoun的第2个字母,因p已用于介词 有些/r 部门/n
s 处所词 取英语space的第1个字母 移居/v 海外/s 。/w
t 时间词 取英语time的第1个字母 当前/t 经济/n 社会/n 情况/n
tg 时语素 时间词性语素。时间词代码为t,在语素的代码g前面置以t 秋/Tg 冬/tg 连/d 旱/a
u 助词 取英语助词auxiliary 的第2个字母,因a已用于形容词 工作/vn 的/u 政策/n
ud 结构助词   有/v 心/n 栽/v 得/ud 梧桐树/n
ug 时态助词   你/r 想/v 过/ug 没有/v
uj 结构助词的   迈向/v 充满/v 希望/n 的/uj 新/a 世纪/n
ul 时态助词了   完成/v 了/ ul
uv 结构助词地   满怀信心/l 地/uv 开创/v 新/a 的/u 业绩/n
uz 时态助词着   眼看/v 着/uz
v 动词   举行/v 老/a 干部/n 迎春/vn 团拜会/n
vd 副动词   强调/vd 指出/v
vg 动语素 动词性语素。动词代码为v。在语素的代码g前面置以V 做好/v 尊/vg 干/j 爱/v 兵/n 工作/vn
vn 名动词  指具有名词功能的动词。动词和名词的代码并在一起 股份制/n 这种/r 企业/n 组织/vn 形式/n ,/w
w 标点符号   生产/v 的/u 5G/nx 、/w 8G/nx 型/k 燃气/n 热水器/n
x 非语素字 非语素字只是一个符号,字母x通常用于代表未知数、符号  
y 语气词 取汉字“语”的声母 已经/d 30/m 多/m 年/q 了/y 。/w
z 状态词 取汉字“状”的声母的前一个字母 势头/n 依然/z 强劲/a ;/w

三、参考

1、《统计自然语言处理》   宗成庆

词性标注:中文词性标注简介相关推荐

  1. pyhanlp 中文词性标注与分词简介

    pyhanlp 中文词性标注与分词简介 pyhanlp实现的分词器有很多,同时pyhanlp获取hanlp中分词器也有两种方式 第一种是直接从封装好的hanlp类中获取,这种获取方式一共可以获取五种分 ...

  2. 基于HMM的中文词性标注 POSTagging

    文章目录 1. 词性标注 1.1 概念 1.2 任务 1.3 预处理 1.4 初步统计预览 2. 最大概率模型 2.1 训练 2.2 预测 2.3 结果评估 2.4 结果可视化 3. 二元隐马尔科夫B ...

  3. python英文语义角色标注_八款中文词性标注工具使用及在线测试

    结束了中文分词工具的安装.使用及在线测试,开启中文词性标注在线测试之旅,一般来说,中文分词工具大多数都附带词性标注功能的,这里测试了之前在AINLP公众号上线的8款中文分词模块或者工具,发现它们都是支 ...

  4. 词性标注:基于MaxEnt的中文词性标注模型实现

    一.前言 1.中文词性标注 2.最大熵模型 二.数据源 本文使用数据源未1998年的人民日报标注语料,手工进行处理,去除一些不符合标注规范(word/pos)的词语,词性标注见中文词性标注一文. 三. ...

  5. 中文词性标注学习笔记(三)---词性标注

    词性标注 词性标注(part-of-speech tagging),又称为词类标注或者简称标注,是指为分词结果中的每个单词标注一个正确的词性的程序,也即确定每个词是名词.动词.形容词或者其他词性的过程 ...

  6. 中文词性标注的简单实现

    中文词性标注的简单实现 数据集和测试脚本 之前,我找到一个中文词性标注的数据集,并且根据数据集写了工具脚本用于评测中文词性标注算法的正确性.在这个数据集的基础上,我对中文词性标注做了简单的实现. 中文 ...

  7. NLP-文本处理:词性标注【使用成熟的第三方工具包:中文(哈工大LTP)、英文()】【对分词后得到的“词语列表”进行词性标注,词性标注的结果用于依存句法分析、语义角色标注】

    词性: 语言中对词的一种分类方法,以语法特征为主要依据.兼顾词汇意义对词进行划分的结果, 常见的词性有14种, 如: 名词, 动词, 形容词等. 顾名思义, 词性标注(Part-Of-Speech t ...

  8. 中文词性标注表-名称来源解释与举例

    中文词性标注表-名称来源解释与举例 结合材料解释和博文举例,整理如下: (两个来源稍有错位,以"-"标识) 编码 名称 注解 举例 a 形容词 英语形容词adjective 最/d ...

  9. 自然语言处理系列二十二》词性标注》词性标注原理》词性介绍

    注:此文章内容均节选自充电了么创始人,CEO兼CTO陈敬雷老师的新书<分布式机器学习实战>(人工智能科学与技术丛书)[陈敬雷编著][清华大学出版社] 文章目录 自然语言处理系列二十二 词性 ...

  10. 中文词性标注学习笔记(二)---分词

    词性标注(二) 分词 词的概念 分词是自然语言处理的基础,分词准确度直接决定了后面的词性标注.句法分析.词向量以及文本分析的质量.英文语句使用空格将单词进行分隔,除了某些特定词,如how many,N ...

最新文章

  1. 关于Spring的构造函数,init-method,和依赖注入的先后顺序
  2. future career plan
  3. IDC:聚焦6+6,抓住数字化转型商机
  4. Fedora 17 下 Samba 服务快速设置
  5. php for 脚本,php for循环脚本。
  6. GitBucket管理员添加人员
  7. Java Concurrent--死锁/饥饿/活锁
  8. error: Please reinstall the libcurl distribution - easy.h should be in curl-dir/include/curl/
  9. 华为P50系列下月见:珍惜,备货量前所未有的少...
  10. LINQ(LINQ to Entities)
  11. Android音量控制器,音量控制器
  12. 北京冬奥会交通临时管理措施发布:春节前调休工作日限行
  13. jedis的Read timed out异常解决
  14. 计算机设计大赛英语怎么说,全国大学生计算机设计大赛国赛参赛指南
  15. 靶机渗透练习55-digitalworld.local:MERCY v2
  16. 与【孤尽】老师交流总结
  17. 基于快应用的音乐播放器
  18. Proteus电路图绘制与CubeMX生成框架下填充Keil 5代码的联调仿真
  19. bat命令启动谷歌浏览器无痕模式
  20. HTTPS证书认证过程(CA)

热门文章

  1. UVM糖果爱好者教程 - 22. Phasing
  2. fastdb中的位图应用
  3. python爬取网易评论
  4. 英文科技论文写作与学术报告Lecture 4习题答案
  5. 微信微博防劫持短网址生成
  6. unexpected indent错误
  7. 13.0、veu-路由嵌套
  8. 联盟链之hyperledger-fabric
  9. 前端bugger 后端debug 介绍系统内部逻辑 压测新增订单接口 tps上不去 ,oom ,常见性能问题 ,性能分析思路
  10. Iproxy USB连接手机