Distantly Supervised Named Entity Recognition using Positive-Unlabeled Learning(DS——NER识别(减少人工参与))
目录
- Distantly Supervised Named Entity Recognition using Positive-Unlabeled Learning
- 前言
- 文章贡献
- Risk定义——基础部分
- Risk Minimization
- Unbiased Positive-Unlabeled learning
- PU learning的一致性
- 基于词典的伪标注
- Build PU Learning Classifier
- Label Inference.
- Adapted PU Learning for NER
- 实验部分
Distantly Supervised Named Entity Recognition using Positive-Unlabeled Learning
前言
使用无标注数据和命名实体识别字典:执行该任务的自然做法是使用字典扫描查询文本,并将与字典条目列表匹配的术语视为实体。
对于标注中出现的错误,一个直观的解决方案是使用字典标记的数据进一步执行监督或半监督学习。
文章贡献
(1)新的PU learning算法
(2)AdaSampling 算法,丰富字典。
Risk定义——基础部分
Risk Minimization
风险最小化:给定损失函数l和分类器f的基础上,计算risk值为:
Y的标签空间是{0,1},f(x)表示一个分类器。
使用经验损失R^估计损失:
通过损失函数最小化,更新模型参数。即argmin(R^)
Unbiased Positive-Unlabeled learning
风险计算可以使用:
π_n表示negative,π_p表示positive的比率。
进一步,根据概率公式:P(x)=P(y=1)*P(x|y=1)+P(y=0)*P(x|y=0)
将上式,negative部分,用all data的分布表示出来。
公式转化过程:
Rℓ=πnEX,Y=0ℓ(f(x),0)+πpEX,Y=1ℓ(f(x),1),R_{\ell}=\pi_{n} \mathbb{E}_{\mathbf{X}, Y=0} \ell(f(\boldsymbol{x}), 0)+\pi_{p} \mathbb{E}_{\mathbf{X}, \mathrm{Y}=1} \ell(f(\boldsymbol{x}), 1),Rℓ=πnEX,Y=0ℓ(f(x),0)+πpEX,Y=1ℓ(f(x),1),
Πp=P(Y=1)\Pi_{p}=P(Y=1) Πp=P(Y=1)
Πn=P(Y=0)\Pi_{n}=P(Y=0)Πn=P(Y=0)
πnEX,Y=0ℓ(f(x),0)=EXℓ(f(x),0)−πpEX,Y=1ℓ(f(x),0)\begin{aligned} \pi_{n} \mathbb{E}_{\mathbf{X}, Y=0} \ell(f(\boldsymbol{x}), 0) &=\mathbb{E}_{\mathbf{X}} \ell(f(\boldsymbol{x}), 0) \\ &-\pi_{p} \mathbb{E}_{\mathbf{X}, \mathrm{Y}=1} \ell(f(\boldsymbol{x}), 0) \end{aligned}πnEX,Y=0ℓ(f(x),0)=EXℓ(f(x),0)−πpEX,Y=1ℓ(f(x),0)
计算推导,在计算期望时,
Rℓ=πpEX,Y=1ℓ(f(x),1)+EXℓ(f(x),0)−πpEX,Y=1ℓ(f(x),0)\begin{aligned} R_{\ell}=\pi_{p} \mathbb{E}_{\mathbf{X}, \mathrm{Y}=1} \ell(f(\boldsymbol{x}), 1)+\mathbb{E}_{\mathbf{X}} \ell(f(\boldsymbol{x}), 0) \\ &-\pi_{p} \mathbb{E}_{\mathbf{X}, \mathrm{Y}=1} \ell(f(\boldsymbol{x}), 0) \end{aligned}Rℓ=πpEX,Y=1ℓ(f(x),1)+EXℓ(f(x),0)−πpEX,Y=1ℓ(f(x),0)
继续推导为:
R^ℓ=1nu∑i=1nuℓ(f(xiu),0)+πpnp∑i=1np(ℓ(f(xip),1)−ℓ(f(xip),0))\begin{aligned} \hat{R}_{\ell} &=\frac{1}{n_{u}} \sum_{i=1}^{n_{u}} \ell\left(f\left(\boldsymbol{x}_{i}^{u}\right), 0\right)+\\ \frac{\pi_{p}}{n_{p}} \sum_{i=1}^{n_{p}}\left(\ell\left(f\left(\boldsymbol{x}_{i}^{p}\right), 1\right)-\ell\left(f\left(\boldsymbol{x}_{i}^{p}\right), 0\right)\right) \end{aligned}R^ℓnpπpi=1∑np(ℓ(f(xip),1)−ℓ(f(xip),0))=nu1i=1∑nuℓ(f(xiu),0)+
PU learning的一致性
PU learning中,不仅要保证risk计算的无偏性还需要保证计算的一致性。
作者在这一块给出了一些证明公式。
最终的Risk计算公式为:
基于词典的伪标注
为了获得 D+,我们使用最大匹配算法 (Liu et al., 1994; Xue, 2003) 用 De 进行数据标注。这是一个贪婪的搜索例程(greedy search),遍历一个句子,试图从句子中的给定点开始,找到与字典中的条目匹配的最长字符串。该算法的一般过程总结在算法。 1. 在我们的实验中,我们直观地设置了上下文大小 k = 4
Build PU Learning Classifier
Word Representation: character-level representation(one-layer-convolution network)+word-level representation(Stanford’s GloVe word)+human designed features(allCaps、upperInitial、小写、mixedCaps、无信息-noinfo,类似于大小写特征)
之后将concat的特征,通过LSTM得到hidden state,特征表示为:
loss定义:
f(w|s)=sigmoid(w*e(w|s)+b)
risk计算:
l(f(w|s),y)=|y-f(w|s)|
训练过程中的经验损失定义为:
考虑到样本分布的不均衡性,作者在计算loss时,增加了weight项,将损失函数重新定义为:
Label Inference.
每个token可能被多个classifier预测为不同的type,选择highest prediction probability作为最终的type。
Adapted PU Learning for NER
对于一个预测的实体,如果它出现了 k 次,并且它在未标记数据集中的所有出现都被预测为实体,我们将在下一次迭代中将其添加到实体字典中
实验部分
• 我们提出的使用简单字典的方法的一般性能;
• 未标记数据大小的影响;
• 字典质量的影响,例如大小、数据标注精度和召回率;
• 以及 πp 估计的影响
Distantly Supervised Named Entity Recognition using Positive-Unlabeled Learning(DS——NER识别(减少人工参与))相关推荐
- 【论文分享】BERTifying the Hidden Markov Model for Multi-Source Weakly Supervised Named Entity Recognition
[ACL 2021]BERTifying 多源弱监督命名实体识别的隐马尔可夫模型 主要内容: ① 在有多源标签库需要使用的情况下,提出了一种条件隐马尔科夫模型,按token-wise转换和发射概率用于 ...
- A Transformer-based System for English Named Entity Recognition 基于Transformer的英语命名实体识别系统
(1) 目的和背景 ① 研究任务: 复杂的复合命名实体可能是复杂的名词短语.动名词.不定式.甚至是完整的句子.这种歧义使很难根据他们的上下文认识它们.为了解决复杂命名实体识别,提出了一个基于 Tra ...
- 【论文笔记-NER综述】A Survey on Deep Learning for Named Entity Recognition
本笔记理出来综述中的点,并将大体的论文都列出,方便日后调研使用查找,详细可以看论文. 神经网络的解释: The forward pass com- putes a weighted sum of th ...
- Hierarchical Contextualized Representation for Named Entity Recognition
文章目录 Hierarchical Contextualized Representation for Named Entity Recognition (层次上下文表示的命名实体识别) Abstra ...
- A Unified MRC Framework for Named Entity Recognition阅读笔记
论文地址: https://arxiv.org/pdf/1910.11476.pdf github:ShannonAI/mrc-for-flat-nested-ner: Code for ACL ...
- 【论文精读】A Survey on Deep Learning for Named Entity Recognition
A Survey on Deep Learning for Named Entity Recognition 前言 Abstract 1. INTRODUCTION 2. BACKGROUND 2.1 ...
- [论文阅读笔记44]Named Entity Recognition without Labelled Data:A Weak Supervision Approach
一,题目 Named Entity Recognition without Labelled Data:A Weak Supervision Approach 无标记数据的命名实体识别: 一种弱监督方 ...
- 复现:Named Entity Recognition with Small Strongly Labeled and Large Weakly Labeled Data
信达雅的原则: 数据->模型->训练. Named Entity Recognition with Small Strongly Labeled and Large Weakly Labe ...
- 论文:Named Entity Recognition with Small Strongly Labeled and Large Weakly Labeled Data
Named Entity Recognition with Small Strongly Labeled and Large Weakly Labeled Data 目录 Named Entity R ...
最新文章
- 基于Python的人工智能美颜系统
- 掏空老底,值得推荐的10个学习神器,总有一个用得上!
- python-面向对象
- C语言一维数组、二维数组、结构体的初始化
- switch与if效率实例解析·5年以下编程经验必看【C#】
- typescript数组,对象,接口实例
- 同页面多UpdatePanel的单独刷新
- unity塔防游戏怪物转向_红包版塔防游戏合集-可以赚钱领红包的塔防游戏-无广告塔防游戏红包版大全...
- java求二阶微积分方程特解_Scipy:实现微分方程的两种方法:两种不同的解决方案:回答...
- Protobuf动态解析那些事儿
- ASPxGridView数据汇总收藏
- echarts2 的引入方式
- IO 设备的分类与概念、IO控制器
- 【QT5】解决 QT 界面中文显示乱码问题
- 精准测试白皮书2020版
- 关于Hanlp的源码
- 回忆我的过去一年2020年考研以及研究生规划
- SQL中over用法大全
- 知识点滴 - 什么是YAML文件
- google的RateLimiter限流器的使用