jieba分词词性对照表

标注 解释 标注 解释 标注 解释
a 形容词 mq 数量词 tg 时语素
ad 副形词 n 名词 u 助词
ag 形语素 ng 例:义 乳 亭 ud 例:得
an 名形词 nr 人名 ug 例:过
b 区别词 nrfg 也是人名 uj 例:的
c 连词 nrt 也是人名 ul 例:了
d 副词 ns 地名 uv 例:地
df 例:不要 nt 机构团体 uz 例:着
dg 副语素 nz 其他专名 v 动词
e 叹词 o 拟声词 vd 副动词
f 方位词 p 介词 vg 动语素
g 语素 q 量词 vi 例:沉溺于 等同于
h 前接成分 r 代词 vn 名动词
i 成语 rg 例:兹 vq 例:去浄 去过 唸过
j 简称略语 rr 人称代词 x 非语素字
k 后接成分 rz 例:这位 y 语气词
l 习用语 s 处所词 z 状态词
m 数词 t 时间词 zg 例:且 丗 丟

词性编码

词性名称

注 解

Ag

形语素

形容词性语素。形容词代码为 a,语素代码g前面置以A。

a

形容词

取英语形容词 adjective的第1个字母。

ad

副形词

直接作状语的形容词。形容词代码 a和副词代码d并在一起。

an

名形词

具有名词功能的形容词。形容词代码 a和名词代码n并在一起。

b

区别词

取汉字“别”的声母。

c

连词

取英语连词 conjunction的第1个字母。

dg

副语素

副词性语素。副词代码为 d,语素代码g前面置以D。

d

副词

取 adverb的第2个字母,因其第1个字母已用于形容词。

e

叹词

取英语叹词 exclamation的第1个字母。

f

方位词

取汉字“方”

g

语素

绝大多数语素都能作为合成词的“词根”,取汉字“根”的声母。

h

前接成分

取英语 head的第1个字母。

i

成语

取英语成语 idiom的第1个字母。

j

简称略语

取汉字“简”的声母。

k

后接成分

 

l

习用语

习用语尚未成为成语,有点“临时性”,取“临”的声母。

m

数词

取英语 numeral的第3个字母,n,u已有他用。

Ng

名语素

名词性语素。名词代码为 n,语素代码g前面置以N。

n

名词

取英语名词 noun的第1个字母。

nr

人名

名词代码 n和“人(ren)”的声母并在一起。

ns

地名

名词代码 n和处所词代码s并在一起。

nt

机构团体

“团”的声母为 t,名词代码n和t并在一起。

nz

其他专名

“专”的声母的第 1个字母为z,名词代码n和z并在一起。

o

拟声词

取英语拟声词 onomatopoeia的第1个字母。

p

介词

取英语介词 prepositional的第1个字母。

q

量词

取英语 quantity的第1个字母。

r

代词

取英语代词 pronoun的第2个字母,因p已用于介词。

s

处所词

取英语 space的第1个字母。

tg

时语素

时间词性语素。时间词代码为 t,在语素的代码g前面置以T。

t

时间词

取英语 time的第1个字母。

u

助词

取英语助词 auxiliary

vg

动语素

动词性语素。动词代码为 v。在语素的代码g前面置以V。

v

动词

取英语动词 verb的第一个字母。

vd

副动词

直接作状语的动词。动词和副词的代码并在一起。

vn

名动词

指具有名词功能的动词。动词和名词的代码并在一起。

w

标点符号

 

x

非语素字

非语素字只是一个符号,字母 x通常用于代表未知数、符号。

y

语气词

取汉字“语”的声母。

z

状态词

取汉字“状”的声母的前一个字母。

un

未知词

不可识别词及用户自定义词组。取英文Unkonwn首两个字母。(非北大标准,CSW分词中定义)

LAC分词词性对照表

词性和专名类别标签集合如下表,其中词性标签24个(小写字母),专名类别标签4个(大写字母)。这里需要说明的是,人名、地名、机名和时间四个类别,在上表中存在两套标签(PER / LOC / ORG / TIME 和 nr / ns / nt / t),被标注为第二套标签的词,是模型判断为低置信度的人名、地名、机构名和时间词。开发者可以基于这两套标签,在四个类别的准确、召回之间做出自己的权衡。

标签 含义 标签 含义 标签 含义 标签 含义
n 普通名词 f 方位名词 s 处所名词 t 时间
nr 人名 ns 地名 nt 机构名 nw 作品名
nz 其他专名 v 普通动词 vd 动副词 vn 名动词
a 形容词 ad 副形词 an 名形词 d 副词
m 数量词 q 量词 r 代词 p 介词
c 连词 u 助词 xc 其他虚词 w 标点符号
PER 人名 LOC 地名 ORG 机构名 TIME 时间

两者对比:

序号

词性

jieba LAC
1

形语素

Ag  
2

形容词

a a
3

副形词

ad ad
4

名形词

an an
5

区别词

b  
6

连词

c c
7

副语素

dg  
8

副词

d d
9

叹词

e  
10

方位词

f f
11

语素

g  
12

前接成分

h  
13

成语

i  
14

简称略语

j  
15

后接成分

k  
16

习用语

l  
17

数词

m m
18

名语素

Ng  
19

名词

n n
20

人名

nr nr  /  PER
21

地名

ns ns  /  LOC
22

机构团体

nt nt  /  ORG
23

其他专名

nz nz
24

拟声词

o  
25

介词

p p
26

量词

q q
27

代词

r r
28

处所词

s s
29

时语素

tg  
30

时间词

t t     /  TIME
31

助词

u u
32

动语素

vg  
33

动词

v v
34

副动词

vd vd
35

名动词

vn vn
36

标点符号

w w
37

非语素字

x  
38

语气词

y  
39

状态词

z  
40

未知词

un  
41 作品名   nw
42 其他虚词   xc

jieba分词 词性表相关推荐

  1. jieba分词词性说明

    jieba(结巴)是一个强大的分词库,完美支持中文分词,本文对其基本用法做一个简要总结. 安装jieba pip install jieba 简单用法 结巴分词分为三种模式:精确模式(默认).全模式和 ...

  2. jieba分词增加自定义词表

    在使用jieba分词时经常会发现一些未登录词,因此增加领域词表就变得很重要,下面提供增加几种途径: 1.领域权威词汇字典 2.搜狗输入法领域词库.百度输入法领域词库 3.jieba分词提供的其他词典: ...

  3. jieba分词 自定义词表简介

    一.jieba分词增加自定义词表 在使用jieba分词时经常会发现一些未登录词,因此增加领域词表就变得很重要,下面提供增加几种途径: 1.领域权威词汇字典 2.搜狗输入法领域词库.百度输入法领域词库 ...

  4. jieba分词的词性表

    注:jieba分词的词性表如下: 另附词性标注表如下: 1. 名词 (1个一类,7个二类,5个三类) 名词分为以下子类: n 名词 nr 人名 nr1 汉语姓氏 nr2 汉语名字 nrj 日语人名 n ...

  5. 自然语言处理之jieba分词

    在处理英文文本时,由于英文文本天生自带分词效果,可以直接通过词之间的空格来分词(但是有些人名.地名等需要考虑作为一个整体,比如New York).而对于中文还有其他类似形式的语言,我们需要根据来特殊处 ...

  6. NLP之jieba分词原理简析

    一.jieba介绍 jieba库是一个简单实用的中文自然语言处理分词库. jieba分词属于概率语言模型分词.概率语言模型分词的任务是:在全切分所得的所有结果中求某个切分方案S,使得P(S)最大. j ...

  7. 中文分词的基本原理以及jieba分词的用法

    结巴分词是国内程序员用Python开发的一个中文分词模块,可能是最好的Python中文分词组件? 中文分词的原理 – 1.中文分词(Chinese Word Segmentation) 指的是将一个汉 ...

  8. python jieba分词及中文词频统计

    这篇博客用来记录一下自己学习用python做词频统计的过程,接上篇的英文词频统计 上篇:python词频统计并按词频排序 参考资料:jieba参考文档 目录 一.jieba库简介 二.一些准备工作 三 ...

  9. 关于《后浪》的B站弹幕分析总结(二)——jieba分词、常用词典、颜文字处理以及字符格式统一

    目录 一.你需要知道的几个常用词典 - **停用词典(停用词,颜文字,emoji)** - 否定词典,程度副词词典 - 情感极性词典,多维情感词典 二.统一字符.统一大小写.统一繁简体 - 统一字符 ...

最新文章

  1. Iptables架构
  2. Loss曲线震荡分析
  3. 剑指 Offer II 022. 链表中环的入口节点(力扣剑指Offer专项突击版——链表2)
  4. SAP传输停止错误:Test call of transport control program (tp) ended with return code 0208!
  5. .NET ORM FreeSql 第一个正式版本发布 v1.0.0
  6. [2021-09-02 contest]CF1251C,可达性统计(bitset优化dp),Boomerang Tournament(状压dp),小蓝的好友(mrx)(treap平衡树)
  7. 程序猿果真有前端后端client吗
  8. JSP 与 Servlet重要部分
  9. IPFS打破传统经济流通特性
  10. JDK17 带来什么新特性?网友:不好意思,我还在JDK6踏步走...
  11. html元素拖动互换位置原理,HTML5 元素拖动 - 实现元素左右拖动, 或更改自身排序...
  12. C语言深入学习系列 - 字节对齐内存管理
  13. 【Pytorch教程】:激励函数
  14. 已知p值自由度 求t值 matlab,统计学中的F值、P值和r分别表示什么意思,怎么求-如何查看f值-数学-敖篮友同学...
  15. 第一章、银行会计的基本原理和基本核算方法
  16. 【PPT技巧】为PPT寻找好看的英文字体(English nice-looking font free)并安装到Windows
  17. Salesforce基础知识学习Day05
  18. deepin关机卡桌面_有了MyDock,我也有了一个MacBook桌面
  19. physx: pid balance controll
  20. opencv 使用 GPU 加速

热门文章

  1. python图形库哪个好_Python下的图像处理库,你要选哪个?
  2. 162-javaweb简单注册
  3. Electron教程
  4. 国内市场主流音视频产品的区别与对比分析
  5. 亚马逊测评老司机经验分享 想入坑的一定要看
  6. 计算机专业答辩需要演示系统么,计算机专业如何顺利通过论文答辩
  7. 城市交通治安卡口系统解决方案
  8. SpringBoot 的前世今生
  9. 线性代数2givens矩阵c语言,数值线性代数习题解答.doc
  10. php使用mpdf将html导出为pdf文件