本篇接上一篇内容《HanLP-基于HMM-Viterbi的人名识别原理介绍》介绍一下层叠隐马的原理。

首先说一下上一篇介绍的人名识别效果对比:

1. 只有Jieba识别出的人名

准确率极低,基本为地名或复杂地名组成部分或复杂机构名组成部分。举例如下:

[1] 战乱的阿富汗地区,枪支可随意买卖,AK47价格约500人民币

“阿富汗”被识别为人名。

[2] 安庆到桂林自驾游如何规划?

“桂林”被识别为人名。

[3] 2018天津市和平分局招聘社区戒毒、社区康复工作人员成绩查询入口

“康复”被识别为人名。

2. 只有HanLP识别出的人名

除了特别常用姓氏的名字识别正确,其他的都识别错误。举例如下:

[1] 纳溪区副区长李明带队到“花田酒地”景区检查节前安全工作

“花田酒”被被识别为人名。

[2] 秀英“线上线下”齐发力 助力贫困户“微互动”拓宽农产品销路

“齐发力”被识别为人名。

[3] 紧急通知:秦报融媒粉团祖山一日游日报名费大调整!

“秦报”被识别为人名。

3. HanLP与Jieba都识别出的人名

1. 非常用姓氏识别出的人名基本错误。

[1] 房产高管薪酬大起底 万科郁亮年薪1189.9万仅排第二

[2] 生生不息 南通支云发布汶川地震十周年海报呼吁赛前默哀

[3] 为什么伊郎不能有核武器,而美国有核武器?

2. 名字本身构成词时基本错误。

[1] 周口一村庄杨絮着火,对付杨絮用啥方法好呢?

[2] 上联: 三国魏蜀吴,如何对下联?

[3] 上联:灯火辉煌万家乐。求下联?

如何解决这些badcase呢,要看你的时间了,如果时间充裕的话,可以调整发射概率文件也就是nr.txt文件。如果时间不充裕的话,比如我现在的情况,那就只保留常用姓氏,以及特别需要关注的人名了。

上一篇的内容先说到这里,介绍本篇的主题”基于层叠隐马的命名实体识别”我这里主要阅读的是这篇文章《基于层叠隐马尔可夫模型的中文命名实体识别》。层叠就是将模型级联起来的意思,因此系统的结构如下图所示:

如图所示,层叠隐马就是训练三个隐马模型,每个模型标注一种实体,三个模型采用级联形式连接。

不同的实体有不同的角色标注,实际就是特征,这些特征需要有语言学的知识,实际上就是你的阅读量,通过你大量阅读总结经验,比如姓氏可以作为名字的一个特征(张、王、李、赵),常用地名的后缀可以作为一个特征(省、市、区、县),机构名表处所的尾字可以作为一个特征(局、处、所、院)。这里地名的角色标注简表如下所示:

自然语言处理工具HanLP-基于层叠HMM地名识别相关推荐

  1. 自然语言处理工具HanLP被收录中国大数据产业发展的创新技术新书《数据之翼》...

    在12月20日由中国电子信息产业发展研究院主办的2018中国软件大会上,大快搜索获评"2018中国大数据基础软件领域领军企业",并成功入选中国数字化转型TOP100服务商. 在本届 ...

  2. 自然语言处理工具HanLP被收录中国大数据产业发展的创新技术新书《数据之翼》

    在12月20日由中国电子信息产业发展研究院主办的2018中国软件大会上,大快搜索获评"2018中国大数据基础软件领域领军企业",并成功入选中国数字化转型TOP100服务商. 在本届 ...

  3. 自然语言处理工具hanlp自定义词汇添加图解

    过程分析 1.添加新词需要确定无缓存文件,否则无法使用成功,因为词典会优先加载缓存文件 2.再确认缓存文件不在时,打开本地词典按照格式添加自定义词汇. 3.调用分词函数重新生成缓存文件,这时会报一个找 ...

  4. 这个自然语言处理“工具”,玩得停不下来

    今天推荐一个有趣的自然语言处理公众号「AINLP」,关注后玩得根本停不下来!AINLP的维护者是我爱自然语言处理(52nlp)博主,他之前在腾讯从事NLP相关的研发工作,目前在一家创业公司带技术团队. ...

  5. Python自然语言处理工具

    Python 自然语言处理(NLP)工具汇总 NLTK 简介: NLTK 在使用 Python 处理自然语言的工具中处于领先的地位.它提供了 WordNet 这种方便处理词汇资源的接口,以及分类.分词 ...

  6. 自然语言处理工具pyhanlp分词与词性标注

    Pyhanlp分词与词性标注的相关内容记得此前是有分享过的.可能时间太久记不太清楚了.以下文章是分享自"baiziyu"所写(小部分内容有修改),供大家学习参考之用. 简介 pyh ...

  7. python自然语言处理库_Python自然语言处理工具库(含中文处理)

    自然语言处理(Natural Language Processing,简称 NLP),是研究计算机处理人类语言的一门技术.随着深度学习在图像识别.语音识别领域的大放异彩,人们对深度学习在 NLP 的价 ...

  8. 自然语言处理之hanlp,Python调用与构建,分词、关键词提取、命名主体识别

    转载请注明出处:https://blog.csdn.net/HHTNAN HanLP是一系列模型与算法组成的NLP工具包,由大快搜索主导并完全开源,目标是普及自然语言处理在生产环境中的应用.HanLP ...

  9. 开源的自然语言处理工具

    2019独角兽企业重金招聘Python工程师标准>>> 学习自然语言这一段时间以来接触和听说了好多开源的自然语言处理工具,在这里做一下汇总方便自己以后学习,其中有自己使用过的也有了解 ...

最新文章

  1. PHP爬取post网页数据,php curl发送post请求爬取webService接口数据简单实例
  2. CV之IR:计算机视觉之图像检索(Image Retrieval)方向的简介、使用方法、案例应用之详细攻略
  3. SQL函数获取一年中每个月的天数
  4. P3911 最小公倍数之和
  5. python程序员自我评价_写给程序员的简明 Python(1)
  6. php读取模板生成静态功能,php 生成静态页面的办法与实现代码详细版
  7. linux iis 环境配置教程,Linux系统Java环境配置教程
  8. mac上设置新版chrome浏览器跨域
  9. windows server 2012的DHCP保留地址导出导入、DHCP故障转移配置、DNS条目命令导入
  10. poi java 导入excel_Java的poi技术读取和导入Excel
  11. Apache commons lang简介
  12. 前端战五渣学前端——初探Parcel急速打包
  13. 小鸡腿U T6 2013FINAL
  14. java连接phoenix
  15. 【Python模块】图形化编程模块-turtle
  16. 怎么把图片变清晰?图片变清晰方法分享。
  17. 使用vlc串流http视频链接
  18. Mobile net系列总结(V1、V2、V3)
  19. 【单片机原理及其应用】第五章定时器的介绍和习题分析
  20. 云原生可观测性平台deepflow部署

热门文章

  1. Linux 终端生存指南
  2. Dragon of Loowater UVA - 11292
  3. python基于PHP+MySQL的连锁商店仓库管理系统
  4. java 什么是原子操作_java原子操作CAS
  5. MySQL 基础入门_04SQL基础
  6. java 性能优化小细节
  7. seek()函数与tell()函数
  8. Java常用类库之String
  9. C++实现动态烟花,噼里啪啦过新年啦
  10. 【C#】简繁体转换类