NLP先验知识(一)
NLP基础任务
1. 分词
最大匹配分词法:长度优先
1. 前向最大匹配(forward-max matching)
2. 后向最大匹配(backward-max matching)
这种算法有几个缺点:
1. 词典中没有(OOV,out of vocabulary)
2. 分词出现歧义 例如:武汉市长江大桥,会把市长和长江大桥同时分出来,产生歧义
现在有很多现成的模型以及第三方包几乎可以解决这些问题:
- jieba
- LTP
- hanNLP
- snowNLP
2. 词性标注(POS Tagging)
词性标注,part of speech,即标注句子中没个词的词性,是重要的基础性工作,为后续的句法分析奠定基础,也是一个已经解决的问题,可以用许多现成的第三方包解决。词性标注可以用两种模型的解决,分类模型和sequence labeling。
2.1 分类模型
用分类模型解决词性标注问题,将句子中的每个词看作一个独立个体,将每种词性看做不同的类,最优化独立化的每个词的分类结果。
2.2 sequence labeling
对当前词上下文提特征,并用特征做分类。利用概率来表示序列,考虑前后词的依存关系,可以使用隐马尔科夫模型或条件随机场。
3. 命名实体识别(NER)
3.1 什么是实体识别
命名实体识别是一种序列标注问题,是对句子中的重要信息进行标注,比人名PER,地名LOC,机构ORG等等,这是基本的标签库。
例如:我在某某大学的教室里学习。
抽取出实体:
我在某某大学的教室里学习。
PER ORG LOC
3.2 实体识别标注方式
NER是一种序列标注问题,因此他们的数据标注方式也遵照序列标注问题的方式,主要有两种标注方式:1)BIOES,2)BIO。
BIOES是指:
B,即Begin,表示开始
I,即Intermediate,表示中间
E,即End,表示结尾
S,即Single,表示单个字符
O,即Other,表示其他,用于标记无关字符
BIO和BIOES大同小异,有了这种标注方式就可以对标签库进行扩充:B-PER, I-PER, B-LOC, I-LOC, B-ORG, I_ORG等,依此类推。
例如:我在某某大学的教室里学习。
这句话可以标注为:
[B-PER, O, B-ORG, I-ORG, I_ORG, E-ORG, O, B-LOC, E-LOC, O, O, O]
3.3 实体识别的方法
- 人工标注
- HMM和CRF
- LSTM+CRF,LSTM作为特征抽取器,再接一个CRF层来作为输出层
- BERT+LSTM+CRF
NLP先验知识(一)相关推荐
- 首个中文多项选择阅读理解数据集:BERT最好成绩只有68%,86%问题需要先验知识...
赖可 发自 亚龙湾移动凹非寺 量子位 报道 | 公众号 QbitAI 横扫一众基准测试的BERT等NLP模型,好像没那么强了. 因为它们遇到了一个中文数据集. 康奈尔大学留学生发布了第一个自由形式的中 ...
- NLP基础知识(三)-AI应用篇
文本间的推理关系,又称为文本蕴含关系 (TextualEntailment),作为一种基本的文本间语义联系,广泛存在于自然语言文本中. 简单的来说文本蕴含关系描述的是两个文本之间的推理关系,其中一个文 ...
- 美团NLP以及知识图谱文章提炼
1.基本定位 作为人工智能时代最重要的知识表示方式之一,知识图谱能够打破不同场景下的数据隔离,为搜索.推荐.问答.解释与决策等应用提供基础支撑. 美团大脑围绕吃喝玩乐等多种场景,构建了生活娱乐领域超大 ...
- 如何向深度学习模型中加入先验知识?
链接:https://www.zhihu.com/question/279012198 编辑:深度学习与计算机视觉 声明:仅做学术分享,侵删 作者:采石工 https://www.zhihu.com/ ...
- 繁凡的对抗攻击论文精读(三)ICLR2019 利用先验知识进行高效黑盒对抗攻击的 bandits 算法(MIT)
点我轻松弄懂深度学习所有基础和各大主流研究方向入门综述! <繁凡的深度学习笔记>,包含深度学习基础和 TensorFlow2.0,PyTorch 详解,以及 CNN,RNN,GNN,AE, ...
- 如何将二维空间先验注入到ViT中? UMA港理工阿里提出SP-ViT,为视觉Transformer学习2D空间先验知识!...
关注公众号,发现CV技术之美 本篇分享论文『SP-ViT: Learning 2D Spatial Priors for Vision Transformers』,曼海姆大学&香港理工& ...
- 综述:如何给模型加入先验知识
点击上方"视学算法",选择加"星标"或"置顶" 重磅干货,第一时间送达 作者丨Billy Z@知乎(已授权) 来源丨https://zhua ...
- 转载 干货 | 陪伴我学习NLP、知识图谱的那些资源(教程+书籍+网站+工具+论文...可以说很全面了)
https://blog.csdn.net/guleileo/article/details/81140179 干货 | 陪伴我学习NLP.知识图谱的那些资源(教程+书籍+网站+工具+论文...可以说 ...
- 干货 | NLP、知识图谱教程、书籍、网站、工具...(附资源链接)
来源:人工智能头条 本文多资源,建议阅读收藏. 本文整理了关于 NLP 与知识图谱的众多参考资源,涵盖内容与形式非常丰富. [ 导读 ]本文作者一年前整理了这份关于 NLP 与知识图谱的参考资源,涵盖 ...
- 不使用先验知识与复杂训练策略,从头训练二值神经网络!
选自 arxiv 作者:Joseph Bethge.Marvin Bornstein.Adrian Loy.Haojin Yang.Christoph Meinel 机器之心编译 参与:张玺.路 来自 ...
最新文章
- cocos2d-x 3.0正式版创建project笔记
- 福建省计算机初级职称,2019福建助理工程师职称评定条件材料及审核管理制度...
- Java RMI 介绍
- CSS从大图中抠取小图完整教程(background-position应用) (转)
- Java继承知识之基本控制语句(if、switch与穿透现象)
- 李洪强iOS开发之后使用XIB实现横向滚动的UIScrollView
- python获取代码当前行数_Python实验室一段日志代码,获取当前调用的函数名和行号...
- [luoguP2147] [SDOI2008]Cave 洞穴勘测(并查集 || lct)
- 7.这就是搜索引擎:核心技术详解 --- 云存储与云计算
- exfat文件系统相关数据结构以及数据恢复方法
- 数字图像处理和计算机视觉课程大纲,数字图像处理B课程教学大纲.doc
- 研磨设计模式-设计模式的基础-设计模式的学习【思路】
- iview 循环 卡片 更好图标 背景色 标题
- 硕士论文查重和本科论文查重的差别在哪里?
- 程序员应该看的十大电影
- linux大容量硬盘 克隆到小硬盘_如何将大硬盘克隆到小磁盘?
- java爆炸图片切换,jQuery实现图片爆炸效果
- SAP中税码、税率、税务科目的几个表及其中的勾稽关系
- 要考驾照科目二了,好紧张
- uboot启动流程详解
热门文章
- ECJia 到家 v1.5.1 发布,基于 O2O 的移动电商开源系统
- IIS配置aspnet常见为题
- 利用Windows server 2003 实现DHCP中继
- 封装cuda/cudnn写卷积网络前向计算程序
- day6 break continue for
- 1011. A+B和C (15)
- eclipse中输入@符号自动提示Annotation
- 解决IE6不支持fixed
- ASP Blob类型转存为Long Raw类型
- OnCreate()和PreCreateWindow()函数的区别