自然语音处理(NLP)系列(四)——命名实体识别 (NER)
命名实体识别是自然语言处理中的热点研究方向之一。在问答系统中,尤其是任务导向的问答的第一步就是命名实体识别,只有先识别出实体才能做下一步的槽填充。
什么是命名实体识别?
命名实体识别(NER),又称为“专名识别”,是指识别文本中具有特定意义的实体,主要包括人名、地名、专有名词、机构名等。命名实体识别自然语言处理中的一项基础关键性任务,是信息提取、问答系统、句法分析、机器翻译、面向Semantic Web的元数据标注等应用领域的重要基础工具。一般来说,命名实体识别的任务是识别出待处理文本中三大类(实体类、时间类和数字类)、七小类(人名、机构名、地名、时间、日期、货币和百分比)命名实体。
命名实体识别(NER)的过程组成
命名实体识别过程组成通常包括两部分:
(1)实体边界识别。
(2)确定实体类别(人名、地名、机构名或其他)。
英语中的命名实体具有比较明显的形式标志,即实体中的每个词的第一个字母要大写。因而实体边界识别相对容易,任务的重点是确定实体的类别。和英语相比,汉语命名实体识别任务更为复杂,而且相对于实体类别标注子任务,实体边界的识别更困难。
命名实体识别的方法(NER)
从模型的层面来看,可以分为:基于规则的方法、无监督学习方法和有监督学习方法。
基于规则的方法
依靠人工制定的规则,规则的设计一般基于句法、语法、词汇的模式,包括特定领域的知识。当词典的大小有限时,基于规则的方法可以达到较好的效果。这种方法具有高精确率和低召回率的特点。
无监督学习方法
利用语义相似性进行聚类,从聚类得到的组当中抽取命名实体,通过统计数据推断实体类别。
基于特征的监督学习方法
可以表示为多分类任务或者序列标注任务,从数据中学习。
命名实体识别(NER)的难点
- 汉语文本没有类似英文文本中空格之类的显式标示词的边界标示符,命名实体识别的第一步就是确定词的边界,即分词。
- 汉语分词和命名实体识别互相影响。
- 不同的命名实体具有不同的内部特征。
- 除了英语中定义好的实体,外国人名译名和地名译名是存在于汉语中的两类特殊实体类型。
- 现代汉语文本,经常出现中英文交替使用,这时汉语命名实体识别的任务还包括识别其中的英文命名实体。
景联文科技支持NLP标注业务
景联文科技作为长三角地区规模最大的AI基础数据服务商,自研数据标注平台,涵盖了绝大多数主流标注工具,支持NLP标注业务,包括OCR转写、文本信息抽取、NLU语句泛化等标注。
案例
一、需求:对文本数据进行命名实体标注,标注总数18万条。
二、项目难点:1)命名实体识别标注内容涉猎广难度大,对标注人员素质能力要求高。2)文本类型多、场景多、篇幅长。3)准确率要求99%,工期紧张。
三、解决方案:1)配备3年以上NLP标注项目管理经验的项目经理和标注团队。2)安排标注团队对项目背景、目的、规则、注意事项、难点、平台操作、项目要求(准确率、日产量)进行培训和考核,考核成绩前60%的人员进入正式任务。3)根据项目要求、基于WBS原理将项目按照其内在结构和实施过程的顺序逐层分解成树状图,形成相对独立、易于管理和检查的项目各单元,落实责任人,确保标注质量。
景联文科技培养了930人的全职标注团队,可为NLP领域提供数据采集和数据标注服务,根据客户需求迅速调配有相关经验的标注员,减少与项目的磨合时间,降低沟通成本;支持7*24小时的客户咨询服务,为客户配备专门的客户经理对项目进行全方面的对接;设有三重标注质检,客户可在平台实时对已标注数据提出问题和建议,标注团队快速处理处理。
景联文科技提供的产品为全链条AI数据服务,从数据采集、清洗、标注、到驻场的全流程、垂直领域数据解决方案一站式AI数据服务,协助人工智能企业解决整个人工智能链条中数据标注环节的相对应问题。
景联文科技|AI基础数据服务|数据采集|数据标注|假指纹制作|指纹防伪算法
助力人工智能技术加速数字经济相关产业质量变革,赋能传统产业智能化转型升级
文章著作权归景联文科技所有,商业转载请联系景联文科技获得授权,非商业转载请注明出处;图片源自网络,如有侵权请联系我们进行删除。
自然语音处理(NLP)系列(四)——命名实体识别 (NER)相关推荐
- Python深度学习-NLP实战:命名实体识别(NER)之分词与序列标注、实体识别任务简介
系列文章目录 Python深度学习-NLP实战:深度学习系列培训教程 Linux服务器软件的简单使用 Linux命令的简单使用 训练集.测试集.验证集的介绍及制作 字向量的训练与生成 文本分类之SVM ...
- NLP命名实体识别(NER)代码实践
NLP命名实体识别(NER)开源实战教程 引 https://blog.csdn.net/xiaosongshine/article/details/99622170 NER学习系列之-BILSTM ...
- 用CRF做命名实体识别——NER系列(三)
在上一篇文章<用隐马尔可夫模型(HMM)做命名实体识别--NER系列(二)>中,我们使用HMM模型来做命名实体识别,将问题转化为统计概率问题,进行求解.显然,它的效果是非常有限的. 在深度 ...
- 用隐马尔可夫模型(HMM)做命名实体识别——NER系列(二)
上一篇文章里<用规则做命名实体识别--NER系列(一)>,介绍了最简单的做命名实体识别的方法–规则.这一篇,我们循序渐进,继续介绍下一个模型--隐马尔可夫模型. 隐马尔可夫模型,看上去,和 ...
- NLP命名实体识别NER数据准备及模型训练实例
NLP命名实体识别NER数据准备及模型训练实例 目录 NLP命名实体识别NER数据准备及模型训练实例 方案一
- NLP实战-中文命名实体识别
NLP实战-中文命名实体识别:https://zhuanlan.zhihu.com/p/61227299
- NLP入门(八)使用CRF++实现命名实体识别(NER)
CRF与NER简介 CRF,英文全称为conditional random field, 中文名为条件随机场,是给定一组输入随机变量条件下另一组输出随机变量的条件概率分布模型,其特点是假设输出随机 ...
- 信息抽取实战:命名实体识别NER【ALBERT+Bi-LSTM模型 vs. ALBERT+Bi-LSTM+CRF模型】(附代码)
实战:命名实体识别NER 目录 实战:命名实体识别NER 一.命名实体识别(NER) 二.BERT的应用 NLP基本任务 查找相似词语 提取文本中的实体 问答中的实体对齐 三.ALBERT ALBER ...
- 【命名实体识别(NER)】(1):命名实体识别综述
什么是命名实体识别? 命名实体识别(Named Entity Recognition,简称NER),又称作"专名识别",是自然语言处理中的一项基础任务,应用范围非常广泛.命名实体一 ...
- 命名实体识别NER探索(1)
命名实体识别NER探索(1) 命名实体识别(Named-entity recognition ,NER)(也称为实体识别.实体分块和实体提取)是信息提取的一个子任务,旨在将非结构化文本中提到的命名实体 ...
最新文章
- 写给大数据开发初学者的话 | 附教程
- python装饰器带参数函数_当我使用带参数的python装饰器时,如何将参数传递给最内部的函数?...
- 使用CSS和JQuery实现表格单元格内容超出时部分隐藏,隐藏部分以...显示
- openlayers 中的一些方法
- D3 svg text标签控制
- Tomcat servers.xml 无注释版
- 21.TCP/IP 详解卷1 --- TCP 的超时与重传
- TTC - Building a Better Vocabulary
- 水电缴费系统php源码_CBMS水电预付费系统
- 介绍一款很好用的分区软件--分区助手(不用格式化磁盘哟~)
- 视频加密技术的实与破解
- 周小川深度解读:DC/EP和数字人民币e-CNY
- 2021React面试精选——持续更新
- Lumen为《堡垒之夜:大逃杀》第四章带来实时全局光照
- K9s之Kubernetes集群管理交互工具实践
- Mysql 脚本创建触发器报错 1064 42000
- 有关CreateCompatibleDC(pdc)的基本讲述
- 桌上有一只盘子,每次只能放入一个水果。请用Wait()、Signal()原语实现爸爸、儿子、女儿三个并发进程的同步。
- DM8168 - BT656格式视频采集
- python画爱心原理_如何理解python一行代码实现一个爱心字符画?
热门文章
- 访问HDFS的权限问题:Permission denied: user=xxx, access=WRITE, inode=“xxxxxxxx“:
- Linux应急响应之挖矿篇
- TypeError:object of type 'type' has no len()的一种可能原因
- 关于java字符流Reader.read()方法的个人理解
- cad批量选择相同块_cad怎么快速选择相同图形/块?
- 关于Redis出现“java.io.IOException: 远程主机强迫关闭了一个现有的连接”的一次排查
- 开关电源:选择隔离电源还是非隔离电源(转)
- 小a与星际探索(dp)
- 计算机表格怎么取消分页,Excel表格自动分页、取消分页等技巧 专家详解
- 实验四-哈夫曼编码的MATLAB实现