中文姓名的构成规律

中文姓名一般由二字或三字组成,第一字为姓氏字(复姓为前两字),其后的一到两个汉字为名用字。统计表明,中文姓名在用字上也有一定规律:一方面某些字频频出现在姓名中,如在姓氏用字中,虽然姓氏辞典中列举了几千个姓氏字,但目前实际使用的不过几百个,而张、王、李、赵、刘5个姓竟占了32%;另一方面,某些字又从不被用作姓名用字,如最、仅、 紧、以、且等字。 根据这一特性,首先从一个含有1万多个人名的数据库中抽取303个姓用字和1047个名用字,形成系统的知识源;然后根据姓名的构成原则制定了一组姓名构成规则集,其中的规则以姓氏字驱动。由于中文姓名的构成是严格遵守构成规则的,因而本文将姓名构成规则定义为一组必须匹配的严格规则。

姓名的上下文环境分析

中文姓名在文本中不是孤立存在的,其依存的上下文信息具有一定的特点:

1、前置信息:姓名的前端多冠有对人的职业、职务及与说话人的关系的称谓,如“这是上海市副市长刘振元日前在与上海旅游记者协会座谈时介绍的。”、“我和妻子秦润英都是双目失明的盲人。”等。在上述句子中的“市长”和“妻子”就是人名“刘振元”和“秦润英”的前置提示信息。

2、后置信息:姓名的后端多随有对此人的职业、职务及与说话人的关系的称谓,如“我国著名学者彭明教授访问前苏联时将书稿复印件全文带回。”,这里的“教授”就成为人名“彭明”的后置提示信息。

3、提示动词:某些动词多随在姓名和人称代词后,如“说、指出、告诉、通知…”,可充分利用这些词的提示作用。

Hanlp 进行人名识别

HanLP 是由一系列模型与算法组成的工具包,目标是普及自然语言处理在生产环境中的应用。HanLP 具备功能完善、性能高效、架构清晰、语料时新、可自定义的特点;提供词法分析(中文分词、词性标注、命名实体识别)、句法分析、文本分类和情感分析等功能。

HanLP 已经被广泛用于 Lucene、Solr、ElasticSearch、Hadoop、Android、Resin 等平台,有大量开源作者开发各种插件与拓展,并且被包装或移植到 Python、C#、R、JavaScript 等语言上去。 基于深度学习的 HanLP2.0 已于2020年初发布,面向下一个十年的前沿 NLP 技术,与 1.x 相辅相成,平行发展。

在 python 环境下使用 Hanlp 可以通过安装 pyhanlp 来导入:

pip install pyhanlp # 安装 pyhanlp 库

from pyhanlp import HanLP # 使用前导入 HanLP工具

在 Hanlp 工具中,主要使用的是 HMM 算法对人名进行识别,在对人名进行识别时,我们可以通过以下方式:

text =input()

segment = HanLP.newSegment().enableNameRecognize(True); # 构建人名识别器 result = segment.seg(text) # 对text文本进行人名识别

print(result) # 输出结果

比如,我们输入的文本为张三在吃苹果,输出的结果则为[张三/nr, 在/p, 吃苹果/nz],人名识别的结果中,包含着各个词的识别结果,我们可以根据各个词的识别结果得知哪些词属于人名。

常见标注的具体意义如下:

| 代码 | 意义 |

| ———— | ———— |

| nr | 人名 |

| n | 名词 |

| v | 动词 |

| p | 介词 |

| g | 语素词 |

| h | 前接部分 |

python识别中文人名_中文人名识别相关推荐

  1. python 分词工具训练_中文分词入门和分词工具汇总攻略

    [注意]如果寻找分词和文本分析软件,为了完成内容分析和其他文本研究任务,直接使用集搜客分词和文本分析软件就可以了.本文是为了讲解集搜客分词和文本分析的实现原理,是给产品设计者和开发者看的. 最近在整理 ...

  2. python识别音乐歌曲_如何轻松识别您正在听的歌曲

    python识别音乐歌曲 Do you have a song stuck in your head? Did you listen to a new song and now you're humm ...

  3. python图片提取文字软件_python识别图片文字_图片文字识别软件,快速提取文字...

    图文识别是一种可以使你转换不同文档的技术,比如将扫描纸质文档,PDF文件或者数码相机拍摄的图片转换成可以编辑的文档. 假设你获得了一个纸质文件-比如,杂志.彩页或者你合作伙伴发给你的PDF合同.很明显 ...

  4. 中文分词_中文分词及其应用

    一.中文分词原理 中文分词是指将一个汉字序列切分成一个一个单独的词.分词就是将连续的字序列按照一定的规范重新组合成词序列的过程.现有的分词方法可分为三大类,分别是基于字符串匹配的分词方法.基于理解的分 ...

  5. 中文路径_中文分词的原理、方法与工具

    海德格尔说"词语破碎处,无物可存在".中文句子不像英文那样的词与词之间有显示空格边界,使得词和词组边界模糊. 为了让计算机更容易理解文本,通常中文信息处理的第一步是中文分词.中文分 ...

  6. Web简单快捷的指纹识别小工具_在线指纹识别平台设计

    Web 指纹识别 本文通过分析 Web 指纹的检测对象.检测方法.检测原理及常用工具,设计了一个简易的指纹搜集脚本来协助发现新指纹,并提取了多个开源指纹识别工具的规则库并进行了规则重组,开发了一个简单 ...

  7. 人脸识别最低像素_深入浅出人脸识别技术

    在深度学习出现后,人脸识别技术才真正有了可用性.这是因为之前的机器学习技术中,难以从图片中取出合适的特征值.轮廓?颜色?眼睛?如此多的面孔,且随着年纪.光线.拍摄角度.气色.表情.化妆.佩饰挂件等等的 ...

  8. 人脸识别进水_万维|人脸识别闸机怎么选?

    如今人脸识别在安防行业的逐渐普及,现在已经有越来越多的场景都已应用人脸识别闸机,像办公大厦啊,景区门口,社区门口等,什么都不用带,只要刷个脸就行,方便快捷又省事.那么,你又对人脸闸机了解多少呢?如果你 ...

  9. 车牌识别分割定位_解析车牌识别系统有什么优势?

    深圳浩博鑫解析车牌识别系统有什么优势? 该系统只需利用各出入口原有的摄像机和一台PC机,几乎是零成本.车牌识别系统能够对各个出入口的视频进行采集,通过内嵌的车牌定位及识别算法得到所有视频中的车辆出入信 ...

最新文章

  1. 使用面部标记提取和深度神经网络进行“昏昏欲睡”的检测
  2. 向Lucene增加中文分词功能
  3. linux查看进程自身全路径,在linux环境下如何查看进程的全路径
  4. Gym - 215177C 玩游戏
  5. jpa映射json_如何使用JPA和Hibernate映射JSON集合
  6. mysql安装、导入数据脚本
  7. OGNL、EL表达式——Struts
  8. 对一个存储过程语法的解读
  9. Guava RateLimiter 实现 API 限流,这才是正确的姿势!
  10. Redis随项目启动或CRUD进行缓存数据
  11. 【Caffe代码解析】Blob
  12. 动态修改类注解(赋值)
  13. java非静态内部类如何创建对象实例
  14. Filmage Screen for Mac 专业录屏软件用这个就足够
  15. 谎言,统计数据和供应商
  16. python3爬虫系列20之反爬需要登录的网站三种处理方式
  17. Android Sophix热修复集成
  18. 计算机专业大学生新学期计划,大学生学习计划500字
  19. c语言利用查表法画正弦波,嵌入式C语言查表法在项目中的应用
  20. 宝马上海车展全球首发新车;宁德时代宣布锂电产业最大规模碳中和规划;玛氏中国冰淇淋本土化生产 | 美通企业周刊...

热门文章

  1. OpenGL的图形渲染过程
  2. 解锁来逗微信编辑器隐藏功能
  3. 怎么卸载apowerrec_Win10怎么卸载预装软件 Win10卸载预装应用教程
  4. linux 中的top命令的介绍
  5. 串口波特率115200
  6. Marvell 88nv1120开卡方法集大成之作,附开卡工具
  7. Python量化交易平台开发教程系列3-vn.py项目中API封装的编译
  8. linux系统(压缩与解压缩,系统管理)
  9. 用matlab实现机械臂的仿真,基于MATLAB的SCARA机械臂仿真与性能评估
  10. 中国社会信任的解体及其结果(zt)