之前需要做一个中文命名实体识别的api,看完了一些相关论文以后觉得短时间内自己实现不大现实,于是找了一些开源工具,其中哈工大的LTP效果是很好的,但是免费使用限流量,需要给钱才行; NLPIR的pynlpir似乎还不能支持命名实体识别等复杂工作,只能做一些分词之类;最后还剩下Hanlp,感谢Hanlp的作者hancks无私的将代码开源,还提供了那么详细的文档。

pyhanlp只有少数功能,其他复杂一点的功能需要使用python调用java代码来实现。
以下是api的模型部分,大多是照着文档写成的。
python调用java需要jpype库,具体安装请参考之前的博客:jpype安装的简便方法

# -*- coding: utf-8 -*-"""
Created on Thu May 10 09:19:55 2018@author: wang小尧
"""import jpype#路径
jvmPath = jpype.getDefaultJVMPath() # 获得系统的jvm路径
ext_classpath = r"./ner/hanlp\hanlp-1.6.3.jar:./ner/hanlp"
jvmArg = '-Djava.class.path=' + ext_classpath
jpype.startJVM(jvmPath, jvmArg, "-Xms1g", "-Xmx1g")#繁体转简体
def TraditionalChinese2SimplifiedChinese(sentence_str):HanLP = jpype.JClass('com.hankcs.hanlp.HanLP')return HanLP.convertToSimplifiedChinese(sentence_str)#切词&命名实体识别与词性标注(可以粗略识别)
def NLP_tokenizer(sentence_str):NLPTokenizer = jpype.JClass('com.hankcs.hanlp.tokenizer.NLPTokenizer')return NLPTokenizer.segment(sentence_str)#地名识别,标注为ns
def Place_Recognize(sentence_str):HanLP = jpype.JClass('com.hankcs.hanlp.HanLP')segment = HanLP.newSegment().enablePlaceRecognize(True)return HanLP.segment(sentence_str)#人名识别,标注为nr
def PersonName_Recognize(sentence_str):HanLP = jpype.JClass('com.hankcs.hanlp.HanLP')segment = HanLP.newSegment().enableNameRecognize(True)return HanLP.segment(sentence_str)#机构名识别,标注为nt
def Organization_Recognize(sentence_str):HanLP = jpype.JClass('com.hankcs.hanlp.HanLP')segment = HanLP.newSegment().enableOrganizationRecognize(True)return HanLP.segment(sentence_str)#标注结果转化成列表
def total_result(function_result_input):x = str(function_result_input)y = x[1:len(x)-1]y = y.split(',')return y#时间实体
def time_result(total_result):z = []for i in range(len(total_result)):if total_result[i][-2:] == '/t':z.append(total_result[i])return z#Type_Recognition 可以选 ‘place’,‘person’,‘organization’三种实体,
#返回单一实体类别的列表
def single_result(Type_Recognition,total_result):if Type_Recognition == 'place':Type = '/ns'elif Type_Recognition == 'person':Type = '/nr'elif Type_Recognition == 'organization':Type = '/nt'else:print ('请输入正确的参数:(place,person或organization)')z = []for i in range(len(total_result)):if total_result[i][-3:] == Type:z.append(total_result[i])return z#把单一实体结果汇总成一个字典
def dict_result(sentence_str):sentence = TraditionalChinese2SimplifiedChinese(sentence_str)total_dict = {}a = total_result(Place_Recognize(sentence))b = single_result('place',a)c = total_result(PersonName_Recognize(sentence))d = single_result('person',c)e = total_result(Organization_Recognize(sentence))f = single_result('organization',e)g = total_result(NLP_tokenizer(sentence))h = time_result(g)total_list = [i for i in [b,d,f,h]]total_dict.update(place = total_list[0],person = total_list[1],organization = total_list[2],time = total_list[3])jpype.shutdownJVM()#关闭JVM虚拟机return total_dict#测试
test_sentence="2018年武胜县新学乡政府大楼门前锣鼓喧天,6月份蓝翔给宁夏固原市彭阳县红河镇捐赠了挖掘机,中国科学院计算技术研究所的宗成庆教授负责教授自然语言处理课程,而他的学生现在正在香港看肉蒲团"
print (dict_result(test_sentence))

识别结果:

{'place': [' 武胜县/ns', ' 宁夏/ns', ' 固原市/ns', ' 彭阳县/ns', ' 红河镇/ns', ' 香港/ns'], 'person': [' 宗成庆/nr'], 'organization': [' 蓝翔/nt', ' 中国科学院计算技术研究所/nt'], 'time': ['2018年/t', ' 6月份/t', ' 现在/t']}

遇到的问题:

在弄这个api时遇到了一些问题,就是当我打开java虚拟机JVM,功能正常使用完关闭了JVM,但是再打开的时候就会报错,所以得一直保持一个JVM一直打开的状态,或者重启kernel才行。网上找了找也没能找到靠谱的解决方案,这个问题只有以后慢慢解决了。如果有人知道如何处理,可以给我发私信。

文章来源于wong小尧的博客

转载于:https://my.oschina.net/u/3984125/blog/2440679

python调用Hanlp做命名实体识别以及词性标注相关推荐

  1. 用隐马尔可夫模型(HMM)做命名实体识别——NER系列(二)

    上一篇文章里<用规则做命名实体识别--NER系列(一)>,介绍了最简单的做命名实体识别的方法–规则.这一篇,我们循序渐进,继续介绍下一个模型--隐马尔可夫模型. 隐马尔可夫模型,看上去,和 ...

  2. 用隐马尔可夫模型(HMM)做命名实体识别——NER系列(一)

    原博python2写的,文末是我改的python3代码 隐马尔可夫模型,看上去,和序列标注问题是天然适配的,所以自然而然的,早期很多做命名实体识别和词性标注的算法,都采用了这个模型. 这篇文章我将基于 ...

  3. 用深度学习做命名实体识别(五)-模型使用

    通过本文,你将了解如何基于训练好的模型,来编写一个rest风格的命名实体提取接口,传入一个句子,接口会提取出句子中的人名.地址.组织.公司.产品.时间信息并返回. 核心模块entity_extract ...

  4. 用CRF做命名实体识别——NER系列(三)

    在上一篇文章<用隐马尔可夫模型(HMM)做命名实体识别--NER系列(二)>中,我们使用HMM模型来做命名实体识别,将问题转化为统计概率问题,进行求解.显然,它的效果是非常有限的. 在深度 ...

  5. 用深度学习做命名实体识别(四)——模型训练

    通过本文你将了解如何训练一个人名.地址.组织.公司.产品.时间,共6个实体的命名实体识别模型. 准备训练样本 下面的链接中提供了已经用brat标注好的数据文件以及brat的配置文件,因为标注内容较多放 ...

  6. 应用BERT模型做命名实体识别任务

    应用BERT模型做命名实体识别任务 作者:陆平 1. 命名实体识别任务概述 人工智能技术的应用领域日趋广泛,新的智能应用层出不穷.本项目将利用人工智能技术来对快递单文字中的命名实体信息进行识别,包括姓 ...

  7. 使用bert的预训练模型做命名实体识别NER

    前言 在上一篇博客提到了如何使用blstm-crf模型来训练本地数据集,完成命名实体提取的任务,还详细解析了代码和对应的原理.针对特定的任务,垂直的领域,可能需要使用特定数据集去训练,从而使得模型有一 ...

  8. 2.文本预处理(分词,命名实体识别和词性标注,one-hot,word2vec,word embedding,文本数据分析,文本特征处理,文本数据增强)

    文章目录 1.1 认识文本预处理 文本预处理及其作用 文本预处理中包含的主要环节 文本处理的基本方法 文本张量表示方法 文本语料的数据分析 文本特征处理 数据增强方法 重要说明 1.2 文本处理的基本 ...

  9. 用深度学习做命名实体识别(二):文本标注工具brat

    本篇文章,将带你一步步的安装文本标注工具brat. brat是一个文本标注工具,可以标注实体,事件.关系.属性等,只支持在linux下安装,其使用需要webserver,官方给出的教程使用的是Apac ...

最新文章

  1. AngularDart Material Design 输入
  2. 出色技术团队的关键要素
  3. Java语法基础-1
  4. 中国工业脚轮行业前景展望及营销战略分析报告2021-2027年
  5. 值更新事件(触发带基础属性到指定字段)
  6. 编写高质量代码改善C#程序的157个建议——建议157:从写第一个界面开始,就进行自动化测试...
  7. codeforces gym-101736 Farmer Faul 平衡树+并查集
  8. linux发送日志命令,linux:记录不同用户使用的命令发送到指定的目录中(可发送到日志服务器中)...
  9. 为什么使用 SLF4J 而不是 Log4J 来做 Java 日志
  10. 无交换机实现集群网络互联
  11. C语言ascll码表值和字符的互相转换的程序
  12. 无偏移谷歌瓦片地址_下载谷歌高清无偏移卫星地图
  13. 锂电池电池管理系统 中颖SH367309保护板方案
  14. (十二)c#Winform自定义控件-分页控件
  15. 页面埋点H5 大数据uniapp 按需要更改代码就行
  16. excel中right函数怎么用
  17. java实现登陆验证码
  18. 【autojs】Auto.js Pro系统intent代码
  19. 推荐几个程序员Mac m1max芯片笔记本软件
  20. python缩小图片_python如何缩小图像

热门文章

  1. python颜色识别_Python人体肤色检测
  2. java游戏服务端_JAVA游戏服务端的速度比得上c++吗?
  3. 偶数表达方式 matlab,如果用a表示非零自然数,那么偶数可以表示为(   )。 ①a+2   ② 2a   ③a-1   ④2a-1——青夏教育精英家教网——...
  4. line vty的原理配置及相关操作
  5. python中使用xlrd、xlwt操作excel表格详解
  6. MT4/MQL4入门到精通EA教程第七课-MQL语言常用函数(七)-指标取值功能函数
  7. 鼠标移入后,图片变成另外的一张图片(1)| 直接给图片变色(只能变纯色)(2)
  8. datagrid中load,reload,loadData方法的区别
  9. 数据压缩原理与应用 WAV文件的分析
  10. 判断花心男人的几种方法*转载)