中文姓名的构成规律

中文姓名一般由二字或三字组成,第一字为姓氏字(复姓为前两字),其后的一到两个汉字为名用字。统计表明,中文姓名在用字上也有一定规律:一方面某些字频频出现在姓名中,如在姓氏用字中,虽然姓氏辞典中列举了几千个姓氏字,但目前实际使用的不过几百个,而张、王、李、赵、刘5个姓竟占了32%;另一方面,某些字又从不被用作姓名用字,如最、仅、 紧、以、且等字。 根据这一特性,首先从一个含有1万多个人名的数据库中抽取303个姓用字和1047个名用字,形成系统的知识源;然后根据姓名的构成原则制定了一组姓名构成规则集,其中的规则以姓氏字驱动。由于中文姓名的构成是严格遵守构成规则的,因而本文将姓名构成规则定义为一组必须匹配的严格规则。

姓名的上下文环境分析

中文姓名在文本中不是孤立存在的,其依存的上下文信息具有一定的特点:

1、前置信息:姓名的前端多冠有对人的职业、职务及与说话人的关系的称谓,如“这是上海市副市长刘振元日前在与上海旅游记者协会座谈时介绍的。”、“我和妻子秦润英都是双目失明的盲人。”等。在上述句子中的“市长”和“妻子”就是人名“刘振元”和“秦润英”的前置提示信息。

2、后置信息:姓名的后端多随有对此人的职业、职务及与说话人的关系的称谓,如“我国著名学者彭明教授访问前苏联时将书稿复印件全文带回。”,这里的“教授”就成为人名“彭明”的后置提示信息。

3、提示动词:某些动词多随在姓名和人称代词后,如“说、指出、告诉、通知…”,可充分利用这些词的提示作用。

Hanlp 进行人名识别

HanLP 是由一系列模型与算法组成的工具包,目标是普及自然语言处理在生产环境中的应用。HanLP 具备功能完善、性能高效、架构清晰、语料时新、可自定义的特点;提供词法分析(中文分词、词性标注、命名实体识别)、句法分析、文本分类和情感分析等功能。

HanLP 已经被广泛用于 Lucene、Solr、ElasticSearch、Hadoop、Android、Resin 等平台,有大量开源作者开发各种插件与拓展,并且被包装或移植到 Python、C#、R、JavaScript 等语言上去。 基于深度学习的 HanLP2.0 已于2020年初发布,面向下一个十年的前沿 NLP 技术,与 1.x 相辅相成,平行发展。

在 python 环境下使用 Hanlp 可以通过安装 pyhanlp 来导入:

pip install pyhanlp # 安装 pyhanlp 库

from pyhanlp import HanLP # 使用前导入 HanLP工具

在 Hanlp 工具中,主要使用的是 HMM 算法对人名进行识别,在对人名进行识别时,我们可以通过以下方式:

text =input()

segment = HanLP.newSegment().enableNameRecognize(True); # 构建人名识别器 result = segment.seg(text) # 对text文本进行人名识别

print(result) # 输出结果

比如,我们输入的文本为张三在吃苹果,输出的结果则为[张三/nr, 在/p, 吃苹果/nz],人名识别的结果中,包含着各个词的识别结果,我们可以根据各个词的识别结果得知哪些词属于人名。

常见标注的具体意义如下:

| 代码 | 意义 |

| ———— | ———— |

| nr | 人名 |

| n | 名词 |

| v | 动词 |

| p | 介词 |

| g | 语素词 |

| h | 前接部分 |

python识别中文人名_中文人名识别相关推荐

  1. python 分词工具训练_中文分词入门和分词工具汇总攻略

    [注意]如果寻找分词和文本分析软件,为了完成内容分析和其他文本研究任务,直接使用集搜客分词和文本分析软件就可以了.本文是为了讲解集搜客分词和文本分析的实现原理,是给产品设计者和开发者看的. 最近在整理 ...

  2. python识别音乐歌曲_如何轻松识别您正在听的歌曲

    python识别音乐歌曲 Do you have a song stuck in your head? Did you listen to a new song and now you're humm ...

  3. python图片提取文字软件_python识别图片文字_图片文字识别软件,快速提取文字...

    图文识别是一种可以使你转换不同文档的技术,比如将扫描纸质文档,PDF文件或者数码相机拍摄的图片转换成可以编辑的文档. 假设你获得了一个纸质文件-比如,杂志.彩页或者你合作伙伴发给你的PDF合同.很明显 ...

  4. 中文分词_中文分词及其应用

    一.中文分词原理 中文分词是指将一个汉字序列切分成一个一个单独的词.分词就是将连续的字序列按照一定的规范重新组合成词序列的过程.现有的分词方法可分为三大类,分别是基于字符串匹配的分词方法.基于理解的分 ...

  5. 中文路径_中文分词的原理、方法与工具

    海德格尔说"词语破碎处,无物可存在".中文句子不像英文那样的词与词之间有显示空格边界,使得词和词组边界模糊. 为了让计算机更容易理解文本,通常中文信息处理的第一步是中文分词.中文分 ...

  6. Web简单快捷的指纹识别小工具_在线指纹识别平台设计

    Web 指纹识别 本文通过分析 Web 指纹的检测对象.检测方法.检测原理及常用工具,设计了一个简易的指纹搜集脚本来协助发现新指纹,并提取了多个开源指纹识别工具的规则库并进行了规则重组,开发了一个简单 ...

  7. 人脸识别最低像素_深入浅出人脸识别技术

    在深度学习出现后,人脸识别技术才真正有了可用性.这是因为之前的机器学习技术中,难以从图片中取出合适的特征值.轮廓?颜色?眼睛?如此多的面孔,且随着年纪.光线.拍摄角度.气色.表情.化妆.佩饰挂件等等的 ...

  8. 人脸识别进水_万维|人脸识别闸机怎么选?

    如今人脸识别在安防行业的逐渐普及,现在已经有越来越多的场景都已应用人脸识别闸机,像办公大厦啊,景区门口,社区门口等,什么都不用带,只要刷个脸就行,方便快捷又省事.那么,你又对人脸闸机了解多少呢?如果你 ...

  9. 车牌识别分割定位_解析车牌识别系统有什么优势?

    深圳浩博鑫解析车牌识别系统有什么优势? 该系统只需利用各出入口原有的摄像机和一台PC机,几乎是零成本.车牌识别系统能够对各个出入口的视频进行采集,通过内嵌的车牌定位及识别算法得到所有视频中的车辆出入信 ...

最新文章

  1. SAP ECC 6.0有哪些增强功能
  2. 李战java_【阿里李战】解剖JavaScript中的 null 和 undefined
  3. java黄油刀_一篇文章玩转ButterKnife,让代码更简洁
  4. K8S+KubeSphere之Helm安装
  5. Android开始中的OOM异常
  6. php四则运算出题器_PHP实现的简单四则运算计算器功能示例
  7. 帆软报表,报错:sql注入攻击问题
  8. 【Java从0到架构师】SpringMVC - 特殊的请求参数
  9. 搭乘云原生与数据中台实践列车 通往数字化转型前沿之旅
  10. linux pv命令,pv命令_Linux pv命令使用详解:用来度量执行命令的具体信息
  11. css渐变颜色php,CSS3中的颜色值RGBA以及渐变色的具体详解(图)
  12. 电话机器人源码支持独立部署+图文介绍
  13. 练字一定要用钢笔吗?
  14. maven项目配置(图书管理系统v2配置)
  15. python多元线性回归报错(assert pytype not in (tokenize.NL, tokenize.NEWLINE))
  16. python华表_鹤归华表 丁令威化鹤
  17. qt在表格中如何画线_Qt如何在表格中显示和编辑数据
  18. win32 绘制超酷界面(二)
  19. 使用ColorMatrix简单处理色彩平衡
  20. ssh开启图形界面_分享|3 个 Linux 上的 SSH 图形界面工具

热门文章

  1. 携职教育:广东2022年企业人力资源管理师职业技能等级认定计划
  2. 基于内容的推荐算法(CB)
  3. centos7:yum -y install gcc python36-devel bzip2-devel sqlite-devel openssl-devel readline-devel xz-d
  4. 笑出腹肌的 Emoji 表情符号,你值得拥有
  5. c#和python更适合爬虫_Python2和Python3哪个更适合初学者学习来爬虫
  6. 利用visio 画思维导图
  7. Python为什么要使用包管理、插件化开发?
  8. 【免费开放源码】审批类小程序项目实战(IDE介绍篇)
  9. 微信小程序 三 圆形图片
  10. linux字体配置要略,Linux字体配置要略.pdf