关于开发自己的命名实体识别先期思路:

虽然网上有很多相关代码,但实际如何入门材料较少,故整理下:

CRF:先期可以用人民日报语料库去做,步骤如下:
https://blog.csdn.net/hudejun007/article/details/38820929 理解CRF++
http://www.jkeabc.com/303251.html 安装CRF++
http://zhuanlan.51cto.com/art/201705/540693.htm 工业界一个例子
https://github.com/lpty/nlp_base/tree/master/ner Github的一个例子
深度学习:基于TensorFlow的代码实现可以参考:https://github.com/zjy-ucas/ChineseNER
垂直命名实体识别:先期主要难度在于语料库的匮乏,可以参考医疗领域的命名实体https://github.com/fangwater/Medical-named-entity-recognition-for-ccks2017

(1)命名实体入门

CRF和LSTM 模型在序列标注上的优劣?

https://www.zhihu.com/question/46688107?sort=created

CRF和LSTM的比较
http://blog.csdn.net/lin370/article/details/52816197

深度学习主流方法:BiLSTM+CRF

入门参考:命名实体识别(NER)的二三事,

http://www.sohu.com/a/148858736_500659

基础却不简单,命名实体识别的难点与现状(垂直领域的难点在于标注预料的匮乏)

https://zhuanlan.zhihu.com/p/26782938

通俗理解BiLSTM-CRF命名实体识别模型中的CRF层

http://www.cnblogs.com/createMoMo/p/7529885.html

命名实体识别训练数据输入格式(需要把数据分词,标注然后根据标记体系标注BMEO成如下形式),然后使用CRF++或参考开源调研的代码:

海 O
钓 O
比 O
赛 O
地 O
点 O
在 O
厦 B-LOC
门 I-LOC
与 O
金 B-LOC
门 I-LOC

(2)命名实体识别开源调研如下:

1, https://github.com/Hironsan/anago

可以换成中文预料就可以训练,bidirectional LSTM + CRF

2,https://github.com/ljingsheng/Named-Entity-Recognition

语料来自人民日报预料,keras,LSTM

3,https://github.com/zjy-ucas/ChineseNER

bidirectional LSTM + CRF tensorflow(其中的conlleval代码可以用来评测命名实体识别结果,参考https://blog.argcv.com/articles/2104.c)

4, https://github.com/crownpku/Information-Extraction-Chinese/tree/master/NER_IDCNN_CRF

Chinese Named Entity Recognition using IDCNN/biLSTM+CRF TensorFlow

5, (优先阅读)https://github.com/Determined22/zh-NER-TF
BiLSTM-CRF TensorFlow 文章参考:http://www.cnblogs.com/Determined22/p/7238342.html

6, https://github.com/fangwater/Medical-named-entity-recognition-for-ccks2017

医疗领域命名实体 A LSTM+CRF model for the seq2seq task for Medical named entity recognition in ccks2017

7,达观数据如何打造一个中文NER系统(传统CRF)

CRF打造的命名实体系统

8,BILSTM-CRF在命名实体识别NER上的应用

https://github.com/guillaumegenthial/sequence_tagging

https://guillaumegenthial.github.io/sequence-tagging-with-tensorflow.html

https://mp.weixin.qq.com/s?src=11&timestamp=1507706758&ver=445&signature=W71hFyMaaTnzLv5utt24BJQ9bSFndQzCDqFeg6Dg2ACdD0y3nlFDHNazDzzQees8VN21cbcUlXYBSN9AFJ7tNWX4ZJ2O-pj71Rhcc4ReX09HdLrk40whV09ojT9Jbsi*&new=1

9,CRF有用的Github

9.1,一个使用条件随机场的中文命名实体识别模型(用sklearn_crfsuite,用人民日报语料)
https://github.com/lpty/nlp_base/tree/master/ner
https://blog.csdn.net/sinat_33741547/article/details/79131223

9.2,CRF++ 实现中文分词 ( 有把分词转换为CRF格式的代码以及调用举例的特征模板)
http://www.stay-stupid.com/?p=224
https://github.com/ictlyh/CRFSegment
中文分词工具测评
http://rsarxiv.github.io/2016/11/29/%E4%B8%AD%E6%96%87%E5%88%86%E8%AF%8D%E5%B7%A5%E5%85%B7%E6%B5%8B%E8%AF%84/
http://sighan.cs.uchicago.edu/bakeoff2005/

重要:命名实体现有可用训练数据以及人民日报语料库
https://github.com/hltcoe/golden-horse/tree/master/data

有CRF PPT介绍 CRF++模型格式说明
http://www.hankcs.com/nlp/the-crf-model-format-description.html

命名实体识别入门教程(必看)相关推荐

  1. python安装教程3.8.5-怎么安装最新Python3.8.5-新手入门教程必看

    前两天给大家分享了最新版2020.2版本的pycharm的激活教程和两种汉化方法 小伙伴们反应都很不错,然而好多刚步入编程行列的小朋友或者是刚学习python的朋友对python的安装还有一些疑惑.所 ...

  2. 【NLP入门教程】五、命名实体识别

    命名实体识别(Named Entity Recognition, NER)是自然语言处理中的一项重要任务,其目标是从文本中识别并分类实体,如人名.地名.组织名.时间表达式等.命名实体识别对于信息抽取. ...

  3. NLP入门(五)用深度学习实现命名实体识别(NER)

    前言   在文章:NLP入门(四)命名实体识别(NER)中,笔者介绍了两个实现命名实体识别的工具--NLTK和Stanford NLP.在本文中,我们将会学习到如何使用深度学习工具来自己一步步地实现N ...

  4. 零基础入门--中文命名实体识别(BiLSTM+CRF模型,含代码)

    https://github.com/mali19064/LSTM-CRF-pytorch-faster 中文分词 说到命名实体抽取,先要了解一下基于字标注的中文分词. 比如一句话 "我爱北 ...

  5. NLP命名实体识别开源实战教程 | 深度应用

    作者 | 小宋是呢 来源 | CSDN博客 近几年来,基于神经网络的深度学习方法在计算机视觉.语音识别等领域取得了巨大成功,另外在自然语言处理领域也取得了不少进展.在NLP的关键性基础任务-命名实体识 ...

  6. 入门必备!生物医学命名实体识别(BioNER)最全论文清单,附SOTA结果汇总

    作者丨罗凌 学校丨大连理工大学博士 研究方向丨深度学习.文本分类 本人将之前整理的一些生物医学命名实体识别相关的论文做了一个 BioNER Progress 放在了 Github 上.主要内容包括 B ...

  7. python 命名实体识别_使用Python和Keras的有关命名实体识别(NER)的完整教程

    假设您是报纸行业的编辑,每天都会收到数千个故事.您将如何找到与体育,政治等特定领域相关的故事?您会讲完所有这些故事吗?无权利?一个可以帮助您划分为不同类别的系统怎么样?该系统还可以执行复杂的任务,例如 ...

  8. NLP入门(八)使用CRF++实现命名实体识别(NER)

    CRF与NER简介   CRF,英文全称为conditional random field, 中文名为条件随机场,是给定一组输入随机变量条件下另一组输出随机变量的条件概率分布模型,其特点是假设输出随机 ...

  9. (转)零基础入门--中文命名实体识别

    转自 https://blog.csdn.net/buppt/article/details/81180361 中文分词 说到命名实体抽取,先要了解一下基于字标注的中文分词. 比如一句话 " ...

最新文章

  1. html 文档自动获取css,前端基础中css选择器,html文档 ,与javascrip中基本的获取
  2. 【代码笔记】iOS-评分,支持我们
  3. Py之configobj:configobj的简介、安装、使用方法之详细攻略
  4. [资源]181个Python开源项目分享!
  5. spring mvc 实现单文件 || 多文件上传
  6. nginx学习笔记-01nginx入门,环境搭建,常见命令
  7. 2018青岛ICPC ZOJ 4062: Plants vs. Zombies(二分)
  8. innerHTMLinnerHTML与innerText的区别outerHTMLinnerHTML与html的区别
  9. Nios内部RAM固化配置
  10. 多租户数据架构以及hibernate支持(Multi-TenantDataArchitecture)
  11. cnc加工中心保养表_【UG编程】五个CNC加工中心的编程加工小技巧!
  12. 深度学习图像分类(一):LeNet
  13. Django book2.0 contact表单
  14. 腾讯云短信服务的简单使用
  15. Photoshop 2020免注册登录版,自用下载安装教程
  16. 值得看三次的高干文_6本好看的高干文推荐,每本都值得看三次!
  17. 如何在Vue中使用lottie加载SVG动画
  18. 信创只是开始_《作业帮高管团队亲笔信:D轮只是开始,一切归零,重新出发》...
  19. 网站排名下降怎么恢复(网站降权的原因如何知道)
  20. win8计算机睡眠无法唤醒,win8.1系统休眠后无法唤醒的解决方法

热门文章

  1. 2022-2028年中国机制砂石行业投资分析及前景预测报告
  2. LeetCode简单题之有多少小于当前数字的数字
  3. SpringBoot-web开发(四): SpringMVC的拓展、接管(源码分析)
  4. tvm模型部署c++ 分析
  5. 硬件delay评估表
  6. 激光雷达lidar与点云数据
  7. YOLOv4没交棒,但YOLOv5来了!
  8. 女友问粉丝过万如何庆祝,我发万字长文《保姆级大数据入门篇》感恩粉丝们支持,学姐|学妹|学弟|小白看了就懂
  9. 在Lumen中引入钉钉SDK
  10. [JS][C++]两题斐波那契数列:上台阶、triangle