python识别中文人名_中文人名识别
中文姓名的构成规律
中文姓名一般由二字或三字组成,第一字为姓氏字(复姓为前两字),其后的一到两个汉字为名用字。统计表明,中文姓名在用字上也有一定规律:一方面某些字频频出现在姓名中,如在姓氏用字中,虽然姓氏辞典中列举了几千个姓氏字,但目前实际使用的不过几百个,而张、王、李、赵、刘5个姓竟占了32%;另一方面,某些字又从不被用作姓名用字,如最、仅、 紧、以、且等字。 根据这一特性,首先从一个含有1万多个人名的数据库中抽取303个姓用字和1047个名用字,形成系统的知识源;然后根据姓名的构成原则制定了一组姓名构成规则集,其中的规则以姓氏字驱动。由于中文姓名的构成是严格遵守构成规则的,因而本文将姓名构成规则定义为一组必须匹配的严格规则。
姓名的上下文环境分析
中文姓名在文本中不是孤立存在的,其依存的上下文信息具有一定的特点:
1、前置信息:姓名的前端多冠有对人的职业、职务及与说话人的关系的称谓,如“这是上海市副市长刘振元日前在与上海旅游记者协会座谈时介绍的。”、“我和妻子秦润英都是双目失明的盲人。”等。在上述句子中的“市长”和“妻子”就是人名“刘振元”和“秦润英”的前置提示信息。
2、后置信息:姓名的后端多随有对此人的职业、职务及与说话人的关系的称谓,如“我国著名学者彭明教授访问前苏联时将书稿复印件全文带回。”,这里的“教授”就成为人名“彭明”的后置提示信息。
3、提示动词:某些动词多随在姓名和人称代词后,如“说、指出、告诉、通知…”,可充分利用这些词的提示作用。
Hanlp 进行人名识别
HanLP 是由一系列模型与算法组成的工具包,目标是普及自然语言处理在生产环境中的应用。HanLP 具备功能完善、性能高效、架构清晰、语料时新、可自定义的特点;提供词法分析(中文分词、词性标注、命名实体识别)、句法分析、文本分类和情感分析等功能。
HanLP 已经被广泛用于 Lucene、Solr、ElasticSearch、Hadoop、Android、Resin 等平台,有大量开源作者开发各种插件与拓展,并且被包装或移植到 Python、C#、R、JavaScript 等语言上去。 基于深度学习的 HanLP2.0 已于2020年初发布,面向下一个十年的前沿 NLP 技术,与 1.x 相辅相成,平行发展。
在 python 环境下使用 Hanlp 可以通过安装 pyhanlp 来导入:
pip install pyhanlp # 安装 pyhanlp 库
from pyhanlp import HanLP # 使用前导入 HanLP工具
在 Hanlp 工具中,主要使用的是 HMM 算法对人名进行识别,在对人名进行识别时,我们可以通过以下方式:
text =input()
segment = HanLP.newSegment().enableNameRecognize(True); # 构建人名识别器 result = segment.seg(text) # 对text文本进行人名识别
print(result) # 输出结果
比如,我们输入的文本为张三在吃苹果,输出的结果则为[张三/nr, 在/p, 吃苹果/nz],人名识别的结果中,包含着各个词的识别结果,我们可以根据各个词的识别结果得知哪些词属于人名。
常见标注的具体意义如下:
| 代码 | 意义 |
| ———— | ———— |
| nr | 人名 |
| n | 名词 |
| v | 动词 |
| p | 介词 |
| g | 语素词 |
| h | 前接部分 |
python识别中文人名_中文人名识别相关推荐
- python 分词工具训练_中文分词入门和分词工具汇总攻略
[注意]如果寻找分词和文本分析软件,为了完成内容分析和其他文本研究任务,直接使用集搜客分词和文本分析软件就可以了.本文是为了讲解集搜客分词和文本分析的实现原理,是给产品设计者和开发者看的. 最近在整理 ...
- python识别音乐歌曲_如何轻松识别您正在听的歌曲
python识别音乐歌曲 Do you have a song stuck in your head? Did you listen to a new song and now you're humm ...
- python图片提取文字软件_python识别图片文字_图片文字识别软件,快速提取文字...
图文识别是一种可以使你转换不同文档的技术,比如将扫描纸质文档,PDF文件或者数码相机拍摄的图片转换成可以编辑的文档. 假设你获得了一个纸质文件-比如,杂志.彩页或者你合作伙伴发给你的PDF合同.很明显 ...
- 中文分词_中文分词及其应用
一.中文分词原理 中文分词是指将一个汉字序列切分成一个一个单独的词.分词就是将连续的字序列按照一定的规范重新组合成词序列的过程.现有的分词方法可分为三大类,分别是基于字符串匹配的分词方法.基于理解的分 ...
- 中文路径_中文分词的原理、方法与工具
海德格尔说"词语破碎处,无物可存在".中文句子不像英文那样的词与词之间有显示空格边界,使得词和词组边界模糊. 为了让计算机更容易理解文本,通常中文信息处理的第一步是中文分词.中文分 ...
- Web简单快捷的指纹识别小工具_在线指纹识别平台设计
Web 指纹识别 本文通过分析 Web 指纹的检测对象.检测方法.检测原理及常用工具,设计了一个简易的指纹搜集脚本来协助发现新指纹,并提取了多个开源指纹识别工具的规则库并进行了规则重组,开发了一个简单 ...
- 人脸识别最低像素_深入浅出人脸识别技术
在深度学习出现后,人脸识别技术才真正有了可用性.这是因为之前的机器学习技术中,难以从图片中取出合适的特征值.轮廓?颜色?眼睛?如此多的面孔,且随着年纪.光线.拍摄角度.气色.表情.化妆.佩饰挂件等等的 ...
- 人脸识别进水_万维|人脸识别闸机怎么选?
如今人脸识别在安防行业的逐渐普及,现在已经有越来越多的场景都已应用人脸识别闸机,像办公大厦啊,景区门口,社区门口等,什么都不用带,只要刷个脸就行,方便快捷又省事.那么,你又对人脸闸机了解多少呢?如果你 ...
- 车牌识别分割定位_解析车牌识别系统有什么优势?
深圳浩博鑫解析车牌识别系统有什么优势? 该系统只需利用各出入口原有的摄像机和一台PC机,几乎是零成本.车牌识别系统能够对各个出入口的视频进行采集,通过内嵌的车牌定位及识别算法得到所有视频中的车辆出入信 ...
最新文章
- 使用面部标记提取和深度神经网络进行“昏昏欲睡”的检测
- 向Lucene增加中文分词功能
- linux查看进程自身全路径,在linux环境下如何查看进程的全路径
- Gym - 215177C 玩游戏
- jpa映射json_如何使用JPA和Hibernate映射JSON集合
- mysql安装、导入数据脚本
- OGNL、EL表达式——Struts
- 对一个存储过程语法的解读
- Guava RateLimiter 实现 API 限流,这才是正确的姿势!
- Redis随项目启动或CRUD进行缓存数据
- 【Caffe代码解析】Blob
- 动态修改类注解(赋值)
- java非静态内部类如何创建对象实例
- Filmage Screen for Mac 专业录屏软件用这个就足够
- 谎言,统计数据和供应商
- python3爬虫系列20之反爬需要登录的网站三种处理方式
- Android Sophix热修复集成
- 计算机专业大学生新学期计划,大学生学习计划500字
- c语言利用查表法画正弦波,嵌入式C语言查表法在项目中的应用
- 宝马上海车展全球首发新车;宁德时代宣布锂电产业最大规模碳中和规划;玛氏中国冰淇淋本土化生产 | 美通企业周刊...