一,题目

Named Entity Recognition without Labelled Data:A Weak Supervision Approach
无标记数据的命名实体识别: 一种弱监督方法
挪威奥斯陆大学 — 挪威

二,摘要

问题:在目标域没有手工标记的数据时,NER怎么进行问题?
解决:提出弱监督方案;依赖于广泛的标签函数来自动注释目标域的文本,然后使用Markov模型把这些标签整合在一起,把整合后的标注送入到最终的NER模型进行识别。
效果:经过两个英文数据集做实验在实体层次上有7个百分点的提升;

三,背景与相关技术

背景:NER很重要,可在实际的环境中,研究的目标域因为没有标注数,不可作迁移学习。
解决方法:提出ws在没有标签数据的情况下去bootstrap(提升)NER模型;这个方法主要是依赖标注函数去标注,然后通过考虑标注的准确性与混淆性使用HMM模型统一这些带有noise的标签,最后再采用最终的模型去进行训练。
特点:标注函数允许我们向序列标注模型注入专业的知识;
贡献:
1. NER的广泛的标签函数集合,包括在不同文本领域上训练的神经模型、地名 词典、启发式函数和文档级约束。
2. 一种新的弱监督模型,适合于序列标签任务,并能够包括概率标签预测。
3. 标签函数和聚合模型开源;

3.1 无监督域自适应

 无监督域适应试图调整来自源域的知识来预测通常具有本质上不同特征的目标域中的新实例。方法: 使用pivots调整特征空间(SCL);代维转换特征空间;划分成一般与域特征;多任务;基于域自适应的微调;

3.2 注释的聚合

1. Bayesian Classifier Combination approach;
2. learn a generative model;
3. Conditional Random Fields (CRFs);
4. Hidden Markov Model;
5. Fully Bayesian approach;

3.2 弱监督

1. distant supervision
2. Snorkel framework;
3. Deep probabilistic logic: A unifying framework for indirect supervision
4.  Swellshark
5. 2020 - Weakly supervised sequence tagging from noisy rules

文章提出:linking rules

3.3 集成学习

bagging, boosting and random forests

四,方法模型

4.1 Labelling functions – 标注函数

域外模型:使用已有的标注数据中进行训练模型,来自于四个数据(Ontonotes, CoNLL 2003,Broad Twitter Corpus, NER-annotated corpus of SEC filings)。
这些模型都是由biLSTM+CRF的模型训练出来的;
Gazetteers:Wikipedia,Geonames,Crunchbase Open Data Map, DBPedia
Heuristic functions(启发式): 每个函数专门识别特定类型的命名实体。例如 日期、时间、金额、百分比和基数/序号值这些特殊实体,是由专门的启发式来处理。
Document-level relations: 引入一个标签函数来捕获文档中的标签一致性约束;

4.2 Aggregation model

HMM模型。

相关模型图:

参数评估

4.3 Sequence labelling model

实验

数据集:

CoNLL 2003

Reuters & Bloomberg

基线:

Ontonotes-trained NER

Majority voting (MV)

Snorkel model

mSDA

AdaptaBERT

Mixtures of multinomials

Accuracy model (ACC) ,

Confusion vector (CV),

Confusion matrix (CM) ,

Sequential Confusion Matrix (SEQ),

Dependent confusion matrix (DCM)

结果:

从这个数据来分析,启发式的规则,还是比较不错的。虽然是有提升的,可是总感觉提升出来的结果不是太优秀,或者可能是受到了实验数据的影响。

总结

WS的一个应用, 模型思想是一个旧思想。文章设置的函数值得借鉴学习下。实验还是比较丰富的。

参考

https://www.aclweb.org/anthology/2020.acl-main.139/
https://github.com/NorskRegnesentral/weak-supervision-for-NER

其它知识

Structural Correspondence Learning:结构对应学习包括一个源域和一个目标域。两个域都有足够的未标记数据,但只有源域有标记的训练数据。
该方法通过建模来自不同领域的特征与支点特征的相关性来识别这些特征之间的对应关系.

happyprince

[论文阅读笔记44]Named Entity Recognition without Labelled Data:A Weak Supervision Approach相关推荐

  1. Named Entity Recognition without Labelled Data:A Weak Supervision Approach论文详读

    Named Entity Recognition without Labelled Data: A Weak Supervision Approach 无标记数据的命名实体识别:一种弱监督方法 创新点 ...

  2. 15:Named Entity Recognition without Labelled Data: A Weak Supervision Approach

    1.ner问题 1.在目标域没有手工标记的数据时,NER怎么进行问题? 2.研究的目标域因为没有标注数,不可作迁移学习? 1.提出弱监督方案:依赖于广泛的标签函数来自动注释目标域的文本,然后使用Mar ...

  3. Raki的读paper小记:Named Entity Recognition without Labelled Data: A Weak Supervision Approach(半成品)

    Abstract & Introduction & Related Work 研究任务 无标注数据NER学习 已有方法和相关工作 Unsupervised domain adaptat ...

  4. 论文解读:Example-Based Named Entity Recognition

    论文解读:Example-Based Named Entity Recognition 核心要点: 本篇工作是比较早的给出了如何定义和实现few-shot NER任务,后续诸多论文均引用该工作: 本文 ...

  5. 论文阅读笔记 (CVPR 2019) Gait Recognition via Disentangled Representation Learning

    一.论文摘要   步态是个体的行走方式,是最重要的生物特征识别手段之一.现有的步态识别方法大多以轮廓或关节体模型为步态特征.这些方法在处理诸如服装.携带和视角等混杂变量时会导致识别性能下降.为了解决这 ...

  6. Nested Named Entity Recognition from Medical Texts: An Adaptive Shared Network Architecture with Att

    论文名称:Nested Named Entity Recognition from Medical Texts: An Adaptive Shared Network Architecture wit ...

  7. [论文阅读笔记70]基于token-token grid模型的信息抽取(5篇)

    论文1: TPLinker: Single-stage Joint Extraction of Entities and Relations Through Token Pair Linking 年份 ...

  8. [论文阅读笔记05]Deep Active Learning for Named Entity Recognition

    一,题目 Deep Active Learning for Named Entity Recognition[NER任务的深度主动学习] 来源:ICLR 2018 原文:DEEP ACTIVE LEA ...

  9. [论文阅读笔记14]Nested named entity recognition revisited

    一, 题目 Nested Named Entity Recognition Revisited 重访问的嵌套命名实体识别 二, 作者 Arzoo Katiyar and Claire Cardie D ...

最新文章

  1. PS常用快捷键就这些了,记住绘图事半功倍
  2. Shell脚本大量示例
  3. PP视频如何不允许WiFi下自动播放
  4. collection集合 介绍_五分钟了解MongoDB介绍,安装与使用
  5. centos 7 mysql 源码安装_centos7 mysql5.7.17源码安装
  6. access中布局为阶梯怎么设计_access模拟题1 -
  7. Mybatis 拦截器 说明和使用 (一)
  8. 中国农业全要素生产率(1949-2020年)
  9. Tik Tok与抖音的不同有哪些
  10. 华为5.0系统如何不用ROOT激活XPOSED框架的步骤
  11. 干货分搞私投以技术面试
  12. linux cgroup 学习的一些总结
  13. Chrome主页被强制修改为百度解决办法
  14. 互联网日报 | 5月11日 星期二 | 作业帮、猿辅导被顶格罚款250万元;360官宣与哪吒汽车合作造车;微博月活用户达5.3亿...
  15. 小学一年级20以内加减法题目自动生成(家长的福利,孩子的魔鬼)
  16. 简单三招,设计复杂ERP报表
  17. Robyn MMM2.0 - Facebook Marketing Science(R)市场营销-广告投放
  18. 【python】python中os.listdir的排序问题
  19. JAVA 设计模式 备忘录模式
  20. agc38C LCMs

热门文章

  1. 三分钟熟悉进制转换与位运算
  2. Day_2 HTML5 格式化文本、段落与列表
  3. 用MATLAB进行余弦信号频谱分析
  4. (转载)【笨木头Lua专栏】基础补充07:协同程序初探
  5. jap mysql注册登录_SpringBoot+JPA实现连接数据库及简单的登录页面(超详细,附全部源码)...
  6. MyBatis代码生成器Gradle插件分享
  7. mysql导入.dmf文件_AX2012 DMF数据导入的问题
  8. Introducing the Ultimate Comfort Solution: ComfiLife Gel Enhanced Seat Cushion
  9. 技术贴_关于某信辅助分析记录和若干检测方法
  10. Offner光学成像系统