HanLP提供下列功能:

中文分词
1.最短路分词(Dijkstra精度已经足够,且速度比N最短快几倍)
2.N-最短路分词(与Dijkstra对比,D已够用)
3.CRF分词(对新词较有效)
4.索引分词(长词切分,索引所有可能词)
5.极速词典分词(速度快,精度一般)
6.用户自定义词典
7.标准分词(HMM-Viterbi)

命名实体识别
1.实体机构名识别(层叠HMM-Viterbi)
2.中国人名识别(HMM-Viterbi)
3.音译人名识别(层叠隐马模型)
4.日本人名识别(层叠隐马模型)
5.地名识别(HMM-Viterbi)

篇章理解
1.关键词提取( TextRank关键词提取)
2.自动摘要( TextRank自动摘要,提取关键句子)
3.短语提取( 基于互信息和左右信息熵的短语提取)

简繁拼音转换
1.拼音转换( 多音字,声母,韵母,声调)
2.简繁转换(繁体中文分词,简繁分歧词)

智能推荐
1.文本推荐(句子级别,从一系列句子中挑出与输入句子/词语最相似的那一句)
2.语义距离(基于《同义词词林扩展版》)

原文链接:https://blog.csdn.net/XiaoXiao_Yang77/article/details/78437915
其它参考链接:https://blog.csdn.net/bbwangj/article/details/89319396

实体标注分词导录:

from pyhanlp import *

import os #远程调试用
os.environ[‘JAVA_HOME’] = ‘/usr/local/jdk-11’#远程调试用
from pyhanlp import *
print (HanLP.segment(“刘晓明去哪里了?”))
#1.2.3.crf/viterbi
sentence = ‘林志玲亮相网友’
CRFnewSegment = HanLP.newSegment(“crf”)
CRFnewSegment = HanLP.newSegment(“viterbi”)
识别日语名开
viterbiNewSegment = HanLP.newSegment(“viterbi”).enableJapaneseNameRecognize(True)
识别日语名开
CRFnewSegment_new = HanLP.newSegment(“crf”).enableJapaneseNameRecognize(True)
print("crf : ",CRFnewSegment.seg(sentence))
print("crf_new : ",CRFnewSegment_new.seg(sentence))
print("viterbi : ",viterbiNewSegment.seg(sentence))

4.感知机
StandardTokenizer = JClass(“com.hankcs.hanlp.tokenizer.StandardTokenizer”)
StandardTokenizer.SEGMENT.enableNumberQuantifierRecognize(True)
print(StandardTokenizer.segment(‘李明华’))

5.适用于中国人名识别
segment = HanLP.newSegment().enableNameRecognize(True)
print(segment.seg(‘黄晓明’))

6.音译名识别
sentence = ‘比尔盖茨、亚马逊的贝索斯、苹果的库克’
person_ner = HanLP.newSegment().enableTranslatedNameRecognize(True)
p_name = person_ner.seg(sentence)
print(p_name)

7.感知机词法分析器
PerceptronLexicalAnalyzer = JClass(‘com.hankcs.hanlp.model.perceptron.PerceptronLexicalAnalyzer’)
analyzer = PerceptronLexicalAnalyzer()
print(analyzer.analyze(董事长李红小姐"))

HanLP词性表

a 形容词
ad 副形词
ag 形容词性语素
al 形容词性惯用语
an 名形词
b 区别词
begin 仅用于始##始
bg 区别语素
bl 区别词性惯用语
c 连词
cc 并列连词
d 副词
dg 辄,俱,复之类的副词
dl 连语
e 叹词
end 仅用于终##终
f 方位词
g 学术词汇
gb 生物相关词汇
gbc 生物类别
gc 化学相关词汇
gg 地理地质相关词汇
gi 计算机相关词汇
gm 数学相关词汇
gp 物理相关词汇
h 前缀
i 成语
j 简称略语
k 后缀
l 习用语
m 数词
mg 数语素
Mg 甲乙丙丁之类的数词
mq 数量词
n 名词
nb 生物名
nba 动物名
nbc 动物纲目
nbp 植物名
nf 食品,比如“薯片”
ng 名词性语素
nh 医药疾病等健康相关名词
nhd 疾病
nhm 药品
ni 机构相关(不是独立机构名)
nic 下属机构
nis 机构后缀
nit 教育相关机构
nl 名词性惯用语
nm 物品名
nmc 化学品名
nn 工作相关名词
nnd 职业
nnt 职务职称
nr 人名
nr1 复姓
nr2 蒙古姓名
nrf 音译人名
nrj 日语人名
ns 地名
nsf 音译地名
nt 机构团体名
ntc 公司名
ntcb 银行
ntcf 工厂
ntch 酒店宾馆
nth 医院
nto 政府机构
nts 中小学
ntu 大学
nx 字母专名
nz 其他专名
o 拟声词
p 介词
pba 介词“把”
pbei 介词“被”
q 量词
qg 量词语素
qt 时量词
qv 动量词
r 代词
rg 代词性语素
Rg 古汉语代词性语素
rr 人称代词
ry 疑问代词
rys 处所疑问代词
ryt 时间疑问代词
ryv 谓词性疑问代词
rz 指示代词
rzs 处所指示代词
rzt 时间指示代词
rzv 谓词性指示代词
s 处所词
t 时间词
tg 时间词性语素
u 助词
ud 助词
ude1 的 底
ude2 地
ude3 得
udeng 等 等等 云云
udh 的话
ug 过
uguo 过
uj 助词
ul 连词
ule 了 喽
ulian 连 (“连小学生都会”)
uls 来讲 来说 而言 说来
usuo 所
uv 连词
uyy 一样 一般 似的 般
uz 着
uzhe 着
uzhi 之
v 动词
vd 副动词
vf 趋向动词
vg 动词性语素
vi 不及物动词(内动词)
vl 动词性惯用语
vn 名动词
vshi 动词“是”
vx 形式动词
vyou 动词“有”
w 标点符号
wb 百分号千分号,全角:% ‰ 半角:%
wd 逗号,全角:, 半角:,
wf 分号,全角:; 半角: ;
wh 单位符号,全角:¥ $ £ ° ℃ 半角:$
wj 句号,全角:。
wky 右括号,全角:) 〕 ] } 》 】 〗 〉 半角: ) ] { >
wkz 左括号,全角:( 〔 [ { 《 【 〖 〈 半角:( [ { <
wm 冒号,全角:: 半角: :
wn 顿号,全角:、
wp 破折号,全角:—— -- ——- 半角:— —-
ws 省略号,全角:…… …
wt 叹号,全角:!
ww 问号,全角:?
wyy 右引号,全角:” ’ 』
wyz 左引号,全角:“ ‘ 『
x 字符串
xu 网址URL
xx 非语素字
y 语气词(delete yg)
yg 语气语素
z 状态词
zg 状态词

原文链接:https://blog.csdn.net/bbwangj/article/details/89319396

实体标注

使用pyhanlp的各种实体标注方法对120w中文名进行实体标注,最后一行为耗时s

pyhanlp常用功能、实体标注、词性表相关推荐

  1. illustrator插件--常用功能开发--标注横尺寸--js脚本开发--AI插件

    1.算法功能   illustrator是矢量编辑软件,画板是绘制处理的重要容器,在印刷方面的一个重要功能就是标注横尺寸,开发一个标注横尺寸功能,以下功能仅用于学习交流,请勿用于非法用途和商业用途,源 ...

  2. HTML学习二_HTML常用的行级标签,常用实体字符及表单标签

    HTML常用的行级标签(行内元素)不独占一行### 有语义的行内元素 #### HTML链接 a标签 ```angular2html<a href="链接地址">链接文 ...

  3. Python的前奏:excel常用功能简介,数据透视表,切片器

    大家好,我是天空之城,今天给大家带来excel常用功能简介,数据透视表,切片器.excel是数据分析的神器,掌握了excel就等于数据分析入了门.就跟ppt一样,入门易,精通难,我们就是要向难而行,变 ...

  4. excel进销存管理系统_通用Excel助力企业定制开发信息化系统常用功能模块

    信息化成为现代企业管理的趋势,而企业管理系统则是推动这一趋势发展的重要载体.那么什么是企业管理系统呢?企业管理系统都有那些呢? 通用Excel助力企业定制开发信息化系统常用功能模块 企业管理系统,是指 ...

  5. 电商常用功能模块的数据库设计

    简介: 目的: 电商常用功能模块的数据库设计 常见问题的数据库解决方案 环境: MySQL5.7 图形客户端,SQLyog Linux 模块: 用户:注册.登陆 商品:浏览.管理 订单:生成.管理 仓 ...

  6. [转]WebPack 常用功能介绍

    概述 Webpack是一款用户打包前端模块的工具.主要是用来打包在浏览器端使用的javascript的.同时也能转换.捆绑.打包其他的静态资源,包括css.image.font file.templa ...

  7. 达梦数据库操作记录_达梦数据库常用功能及命令记录 -- 持续更新

    达梦数据库常用功能及命令记录 -- 持续更新 达梦数据库常用功能及命令记录 达梦数据库语句的使用总体来说跟 oracle 很接近的, 这篇文章主要是把常用的情况和语句做了记录, 并且后续还会不断的持续 ...

  8. OOnbsp;ALV常用功能完整简例(热键单击…

    OO ALV 常用功能简介 目录 OO ALV 常用功能简介... 1 一.所用类:... 2 二.效果图:... 2 单击... 2 双击... 2 F4帮助... 3 编辑某单元格并校验... 3 ...

  9. 从零开始学习jQuery (十) jQueryUI常用功能实战

    本系列文章导航 从零开始学习jQuery (一) 开天辟地入门篇 从零开始学习jQuery (二) 万能的选择器 从零开始学习jQuery (三) 管理jQuery包装集 从零开始学习jQuery ( ...

最新文章

  1. C#抽象工厂模式的几种实现方法及比较
  2. 解析Objective-C中多态、动态类型和动态绑定
  3. 展望二十一世纪第三个十年
  4. 解决思科认证学员与高校网络及信息安全专业实验限制的解决方案
  5. c语言中如何让诊断代码右移_如何检测和诊断生产中的慢代码
  6. [原创]java WEB学习笔记48:其他的Servlet 监听器:域对象中属性的变更的事件监听器 (3 个),感知 Session 绑定的事件监听器(2个)...
  7. Flutter布局锦囊---完善信息页
  8. 用户级线程和内核级线程
  9. 视易服务器查看硬盘状态,Linux服务器使用Smartmontools检测硬盘状况 | 厘米天空
  10. 110报警声+单片机c语言,基于单片机的红外报警系统设计毕业论文.docx
  11. Assigning Pods to Nodes(将Pod分配到Node)
  12. 深度强化学习(DRL)简介与常见算法(DQN,DDPG,PPO,TRPO,SAC)分类
  13. casewhen多条件查询_Mybatis(三)- MyBatis 多条件查询和模糊查询实例
  14. unity万能的提示窗口
  15. 简单视频加密【C语言实现】
  16. Natural language Processing in tensorflow quizs on Coursera
  17. c语言经典程序100例 九宫格,9X9,九宫格测试,C编程。
  18. 按键精灵DNF脚本开发第二季
  19. 你被猪队友代码坑的最惨的一次是什么
  20. 从头撸JavaScript--对象篇

热门文章

  1. python怎么返回最初_最初的步骤
  2. 王炸!微软Bing Chat全面开放!
  3. 计算机三级成绩截图,09年计算机三级辅导:填表截图一个傲游全搞定
  4. C++ ICU库介绍以及常用代码封装
  5. 3ds Max小白入门小案例|FFD你是我的小苹果
  6. 2006年中国软件收入规模前100家企业名单(转自sina)
  7. 如何修改Android_studio里面虚拟器得安装位置
  8. 无线电监测设备该如何选择
  9. Play-to-Earn(P2E)公会的持续发展
  10. android打包文件