NLP基础任务

1. 分词

最大匹配分词法:长度优先

1. 前向最大匹配(forward-max matching)

2. 后向最大匹配(backward-max matching)

这种算法有几个缺点:

1. 词典中没有(OOV,out of vocabulary)

2. 分词出现歧义  例如:武汉市长江大桥,会把市长和长江大桥同时分出来,产生歧义

现在有很多现成的模型以及第三方包几乎可以解决这些问题:

  • jieba
  • LTP
  • hanNLP
  • snowNLP

2. 词性标注(POS Tagging)

词性标注,part of speech,即标注句子中没个词的词性,是重要的基础性工作,为后续的句法分析奠定基础,也是一个已经解决的问题,可以用许多现成的第三方包解决。词性标注可以用两种模型的解决,分类模型和sequence labeling。

2.1 分类模型

用分类模型解决词性标注问题,将句子中的每个词看作一个独立个体,将每种词性看做不同的类,最优化独立化的每个词的分类结果。

2.2 sequence labeling

对当前词上下文提特征,并用特征做分类。利用概率来表示序列,考虑前后词的依存关系,可以使用隐马尔科夫模型或条件随机场。

3. 命名实体识别(NER)

3.1 什么是实体识别

命名实体识别是一种序列标注问题,是对句子中的重要信息进行标注,比人名PER,地名LOC,机构ORG等等,这是基本的标签库。

例如:我在某某大学的教室里学习。

抽取出实体:

某某大学教室里学习。

PER   ORG       LOC

3.2 实体识别标注方式

NER是一种序列标注问题,因此他们的数据标注方式也遵照序列标注问题的方式,主要有两种标注方式:1)BIOES,2)BIO。

BIOES是指:

  • B,即Begin,表示开始

  • I,即Intermediate,表示中间

  • E,即End,表示结尾

  • S,即Single,表示单个字符

  • O,即Other,表示其他,用于标记无关字符

BIO和BIOES大同小异,有了这种标注方式就可以对标签库进行扩充:B-PER, I-PER, B-LOC, I-LOC, B-ORG, I_ORG等,依此类推。

例如:我在某某大学的教室里学习。

这句话可以标注为:

[B-PER, O, B-ORG, I-ORG, I_ORG, E-ORG, O, B-LOC, E-LOC, O, O, O]

3.3 实体识别的方法

  1. 人工标注
  2. HMM和CRF
  3. LSTM+CRF,LSTM作为特征抽取器,再接一个CRF层来作为输出层
  4. BERT+LSTM+CRF

NLP先验知识(一)相关推荐

  1. 首个中文多项选择阅读理解数据集:BERT最好成绩只有68%,86%问题需要先验知识...

    赖可 发自 亚龙湾移动凹非寺 量子位 报道 | 公众号 QbitAI 横扫一众基准测试的BERT等NLP模型,好像没那么强了. 因为它们遇到了一个中文数据集. 康奈尔大学留学生发布了第一个自由形式的中 ...

  2. NLP基础知识(三)-AI应用篇

    文本间的推理关系,又称为文本蕴含关系 (TextualEntailment),作为一种基本的文本间语义联系,广泛存在于自然语言文本中. 简单的来说文本蕴含关系描述的是两个文本之间的推理关系,其中一个文 ...

  3. 美团NLP以及知识图谱文章提炼

    1.基本定位 作为人工智能时代最重要的知识表示方式之一,知识图谱能够打破不同场景下的数据隔离,为搜索.推荐.问答.解释与决策等应用提供基础支撑. 美团大脑围绕吃喝玩乐等多种场景,构建了生活娱乐领域超大 ...

  4. 如何向深度学习模型中加入先验知识?

    链接:https://www.zhihu.com/question/279012198 编辑:深度学习与计算机视觉 声明:仅做学术分享,侵删 作者:采石工 https://www.zhihu.com/ ...

  5. 繁凡的对抗攻击论文精读(三)ICLR2019 利用先验知识进行高效黑盒对抗攻击的 bandits 算法(MIT)

    点我轻松弄懂深度学习所有基础和各大主流研究方向入门综述! <繁凡的深度学习笔记>,包含深度学习基础和 TensorFlow2.0,PyTorch 详解,以及 CNN,RNN,GNN,AE, ...

  6. 如何将二维空间先验注入到ViT中? UMA港理工阿里提出SP-ViT,为视觉Transformer学习2D空间先验知识!...

    关注公众号,发现CV技术之美 本篇分享论文『SP-ViT: Learning 2D Spatial Priors for Vision Transformers』,曼海姆大学&香港理工& ...

  7. 综述:如何给模型加入先验知识

    点击上方"视学算法",选择加"星标"或"置顶" 重磅干货,第一时间送达 作者丨Billy Z@知乎(已授权) 来源丨https://zhua ...

  8. 转载 干货 | 陪伴我学习NLP、知识图谱的那些资源(教程+书籍+网站+工具+论文...可以说很全面了)

    https://blog.csdn.net/guleileo/article/details/81140179 干货 | 陪伴我学习NLP.知识图谱的那些资源(教程+书籍+网站+工具+论文...可以说 ...

  9. 干货 | NLP、知识图谱教程、书籍、网站、工具...(附资源链接)

    来源:人工智能头条 本文多资源,建议阅读收藏. 本文整理了关于 NLP 与知识图谱的众多参考资源,涵盖内容与形式非常丰富. [ 导读 ]本文作者一年前整理了这份关于 NLP 与知识图谱的参考资源,涵盖 ...

  10. 不使用先验知识与复杂训练策略,从头训练二值神经网络!

    选自 arxiv 作者:Joseph Bethge.Marvin Bornstein.Adrian Loy.Haojin Yang.Christoph Meinel 机器之心编译 参与:张玺.路 来自 ...

最新文章

  1. cocos2d-x 3.0正式版创建project笔记
  2. 福建省计算机初级职称,2019福建助理工程师职称评定条件材料及审核管理制度...
  3. Java RMI 介绍
  4. CSS从大图中抠取小图完整教程(background-position应用) (转)
  5. Java继承知识之基本控制语句(if、switch与穿透现象)
  6. 李洪强iOS开发之后使用XIB实现横向滚动的UIScrollView
  7. python获取代码当前行数_Python实验室一段日志代码,获取当前调用的函数名和行号...
  8. [luoguP2147] [SDOI2008]Cave 洞穴勘测(并查集 || lct)
  9. 7.这就是搜索引擎:核心技术详解 --- 云存储与云计算
  10. exfat文件系统相关数据结构以及数据恢复方法
  11. 数字图像处理和计算机视觉课程大纲,数字图像处理B课程教学大纲.doc
  12. 研磨设计模式-设计模式的基础-设计模式的学习【思路】
  13. iview 循环 卡片 更好图标 背景色 标题
  14. 硕士论文查重和本科论文查重的差别在哪里?
  15. 程序员应该看的十大电影
  16. linux大容量硬盘 克隆到小硬盘_如何将大硬盘克隆到小磁盘?
  17. java爆炸图片切换,jQuery实现图片爆炸效果
  18. SAP中税码、税率、税务科目的几个表及其中的勾稽关系
  19. 要考驾照科目二了,好紧张
  20. uboot启动流程详解

热门文章

  1. ECJia 到家 v1.5.1 发布,基于 O2O 的移动电商开源系统
  2. IIS配置aspnet常见为题
  3. 利用Windows server 2003 实现DHCP中继
  4. 封装cuda/cudnn写卷积网络前向计算程序
  5. day6 break continue for
  6. 1011. A+B和C (15)
  7. eclipse中输入@符号自动提示Annotation
  8. 解决IE6不支持fixed
  9. ASP Blob类型转存为Long Raw类型
  10. OnCreate()和PreCreateWindow()函数的区别