1. 通俗易懂解释知识图谱(Knowledge Graph)

2. 知识图谱-命名实体识别(NER)详解

3. 哈工大LTP解析

1. 前言

在解了知识图谱的全貌之后,我们现在慢慢的开始深入的学习知识图谱的每个步骤。今天介绍知识图谱里面的NER的环节。

命名实体识别(Named Entity Recognition,简称NER),是指识别文本中具有特定意义的实体,主要包括人名、地名、机构名、专有名词等。通常包括两部分:(1)实体边界识别;(2) 确定实体类别(人名、地名、机构名或其他)。

2. NER形势

NER当前并不算是一个大热的研究课题,因为学术界部分学者认为这是一个已经解决的问题。当然也有学者认为这个问题还没有得到很好地解决,原因主要有:命名实体识别只是在有限的文本类型(主要是新闻语料中)和实体类别(主要是人名、地名、组织机构名)中取得了不错的效果;与其他信息检索领域相比,实体命名评测预料较小,容易产生过拟合;命名实体识别更侧重高召回率,但在信息检索领域,高准确率更重要;通用的识别多种类型的命名实体的系统性能很差。

2.1 中文NER问题

中文的命名实体识别与英文的相比,挑战更大,目前未解决的难题更多。英语中的命名实体具有比较明显的形式标志,即实体中的每个词的第一个字母要大写,所以实体边界识别相对容易,任务的重点是确定实体的类别。和英语相比,汉语命名实体识别任务更加复杂,而且相对于实体类别标注子任务,实体边界的识别更加困难。

汉语命名实体识别的难点主要存在于:

  1. 汉语文本没有类似英文文本中空格之类的显式标示词的边界标示符,命名实体识别的第一步就是确定词的边界,即分词。
  2. 汉语分词和命名实体识别互相影响。
  3. 除了英语中定义的实体,外国人名译名和地名译名是存在于汉语中的两类特殊实体类型。
  4. 现代汉语文本,尤其是网络汉语文本,常出现中英文交替使用,这时汉语命名实体识别的任务还包括识别其中的英文命名实体。
  5. 不同的命名实体具有不同的内部特征,不可能用一个统一的模型来刻画所有的实体内部特征。

3. NER方法

当前命名实体识别的主要技术方法分为:基于规则和词典的方法、基于统计的方法、二者混合的方法、神经网络的方法等。

3.1 基于规则和词典的方法

基于规则的方法多采用语言学专家手工构造规则模板,选用特征包括统计信息、标点符号、关键字、指示词和方向词、位置词(如尾字)、中心词等方法,以模式和字符串相匹配为主要手段,这类系统大多依赖于知识库和词典的建立。

  • 缺点
  1. 这类系统大多依赖于知识库和词典的建立。
  2. 系统可移植性不好,对于不同的系统需要语言学专家重新书写规则。
  3. 代价太大,系统建设周期长。

3.2 基于统计的方法

基于统计机器学习的方法主要包括:隐马尔可夫模型(HiddenMarkovMode,HMM)最大熵(MaxmiumEntropy)支持向量机(Support VectorMachine,SVM)条件随机场(ConditionalRandom Fields)

  • 特点
  1. 最大熵模型有较好的通用性,主要缺点是训练时间复杂性非常高。
  2. 条件随机场特征灵活、全局最优的标注框架,但同时存在收敛速度慢、训练时间长的问题。
  3. 隐马尔可夫模型在训练和识别时的速度要快一些,Viterbi算法求解命名实体类别序列的效率较高。
  4. 最大熵和支持向量机在正确率上要比隐马尔可夫模型高。
  5. 基于统计的方法对语料库的依赖也比较大

3.3 混合方法

自然语言处理并不完全是一个随机过程,单独使用基于统计的方法使状态搜索空间非常庞大,必须借助规则知识提前进行过滤修剪处理。目前几乎没有单纯使用统计模型而不使用规则知识的命名实体识别系统,在很多情况下是使用混合方法,主要包括:

  1. 统计学习方法之间或内部层叠融合。
  2. 规则、词典和机器学习方法之间的融合,其核心是融合方法技术。在基于统计的学习方法中引入部分规则,将机器学习和人工知识结合起来。
  3. 将各类模型、算法结合起来,将前一级模型的结果作为下一级的训练数据,并用这些训练数据对模型进行训练,得到下一级模型。

3.4 基于神经网络的方法

近年来,随着硬件能力的发展以及词的分布式表示(word embedding)的出现,神经网络成为可以有效处理许多NLP任务的模型。主要的模型有NN/CNN-CRF、RNN-CRF、LSTM-CRF。

神经网络可以分为以下几个步骤。

  1. 对于序列标注任务(如CWS、POS、NER)的处理方式是类似的,将token从离散one-hot表示映射到低维空间中成为稠密的embedding。
  2. 将句子的embedding序列输入到RNN中,用神经网络自动提取特征。
  3. Softmax来预测每个token的标签。
  • 优点
  1. 神经网络模型的训练成为一个端到端的整体过程,而非传统的pipeline
  2. 不依赖特征工程,是一种数据驱动的方法。
  • 缺点
  1. 网络变种多、对参数设置依赖大。
  2. 模型可解释性差。
  3. 每个token打标签的过程中是独立的分类,不能直接利用上文已经预测的标签。

4. 总结

从语言分析的全过程来看,命名实体识别属于词法分析中未登录词识别的范畴。命名实体识别是未登录词中数量最多、识别难度最大、对分词效果影响最大的问题,同时它也是信息抽取、信息检索、机器翻译、问答系统等多种自然语言处理技术必不可少的组成部分。

转载于:https://www.cnblogs.com/huangyc/p/10064853.html

2. 知识图谱-命名实体识别(NER)详解相关推荐

  1. 【命名实体识别(NER)】(1):命名实体识别综述

    什么是命名实体识别? 命名实体识别(Named Entity Recognition,简称NER),又称作"专名识别",是自然语言处理中的一项基础任务,应用范围非常广泛.命名实体一 ...

  2. 信息抽取实战:命名实体识别NER【ALBERT+Bi-LSTM模型 vs. ALBERT+Bi-LSTM+CRF模型】(附代码)

    实战:命名实体识别NER 目录 实战:命名实体识别NER 一.命名实体识别(NER) 二.BERT的应用 NLP基本任务 查找相似词语 提取文本中的实体 问答中的实体对齐 三.ALBERT ALBER ...

  3. 逐行讲解CRF实现命名实体识别(NER)

    文章标题 本文概述 NER介绍 代码详解 任务 导入库 加载数据集 构造特征字典 数据处理 模型训练 模型验证 模型参数 备注 随机搜索RandomizedSearchCV 本文概述 使用sklear ...

  4. 命名实体识别NER探索(1)

    命名实体识别NER探索(1) 命名实体识别(Named-entity recognition ,NER)(也称为实体识别.实体分块和实体提取)是信息提取的一个子任务,旨在将非结构化文本中提到的命名实体 ...

  5. NLP命名实体识别NER数据准备及模型训练实例

    NLP命名实体识别NER数据准备及模型训练实例 目录 NLP命名实体识别NER数据准备及模型训练实例 ​ 方案一

  6. NLP命名实体识别(NER)代码实践

    NLP命名实体识别(NER)开源实战教程  引 https://blog.csdn.net/xiaosongshine/article/details/99622170 NER学习系列之-BILSTM ...

  7. 用CRF做命名实体识别——NER系列(三)

    在上一篇文章<用隐马尔可夫模型(HMM)做命名实体识别--NER系列(二)>中,我们使用HMM模型来做命名实体识别,将问题转化为统计概率问题,进行求解.显然,它的效果是非常有限的. 在深度 ...

  8. 用隐马尔可夫模型(HMM)做命名实体识别——NER系列(二)

    上一篇文章里<用规则做命名实体识别--NER系列(一)>,介绍了最简单的做命名实体识别的方法–规则.这一篇,我们循序渐进,继续介绍下一个模型--隐马尔可夫模型. 隐马尔可夫模型,看上去,和 ...

  9. NLP入门(八)使用CRF++实现命名实体识别(NER)

    CRF与NER简介   CRF,英文全称为conditional random field, 中文名为条件随机场,是给定一组输入随机变量条件下另一组输出随机变量的条件概率分布模型,其特点是假设输出随机 ...

  10. 在线中文命名实体识别 ( NER ) 的工具

    在线中文命名实体识别( NER )的工具 命名实体识别(Named Entity Recognition,简称NER),又称作"专名识别",是指识别文本中具有特定意义的实体,主要包 ...

最新文章

  1. mysql删除有空格字符名称的触发器
  2. MySQL删除匿名用户,保证登录安全
  3. 卸载Macports,安装HomeBrew
  4. 剖析Docker Swarm和Mesos:是什么?如何结合?有什么优势?
  5. Spring Cloud 服务消费者 rest+ribbon (二)
  6. db_index,unique和primary区别
  7. 推荐一个PPT副业,日赚800-1000元
  8. 美容院店务管理系统哪家好?
  9. Hibernate 缓存机制浅析
  10. 量化交易实战【1】自己搭建一个的股票交易回测框架,并通过均线择时策略进行回测
  11. 使用hex编码绕过主机卫士IIS版本继续注入
  12. 末学者笔记--Python基础三玄
  13. python帝国cms_用python 发 帝国cms 文章
  14. erp系统的优点和不足?云系统给企业带来的好处?
  15. 申请注册GMAIL的免费企业邮箱
  16. 在线接口Mock工具fastmock详解
  17. MySQL创建视图语法,MySQL视图的作用
  18. vue中的生命周期函数都在什么时候执行?
  19. 一种兼容645和698通信协议的电能表
  20. 强大的科学统计软件 Stata 16 中文Mac版(内附安装包链接)

热门文章

  1. Spring源码之ApplicationContext(九)初始化剩余的单例
  2. [渝粤教育] 西安工业大学 数字电子技术基础 参考 资料
  3. 五个 Linux 下用户空间的调试工具
  4. MOOSE相场模块的内核模型
  5. react 项目 测试
  6. 自动生成构造方法、getter、setter
  7. 【转】宝贝,我要出嫁了……
  8. 分享一个数据结构网站
  9. 1.Spring——七大主要模块
  10. 微信小程序之----audio音频播放