Abstract & Introduction & Related Work

  • 研究任务
    用多种语言的标注数据来训练模型
  • 已有方法和相关工作
    1. adapting a model from a high-resource to low-resource language
    2. 利用有益的多语言特征或数据集的优势
    3. 无监督表示学习
  • 面临挑战
    1. 尽管可以获得更多的训练数据,但使用来自多种语言的注释数据对NER模型进行的简单训练始终低于仅使用单语数据训练的模型。
    2. 多语言模型往往不能改善每种语言的结果
  • 创新思路
    1. 使用单个多语言模型经过fine-tune之后能应用到目标语言上
    2. 我们的研究是对多语种NER模型的首次系统研究
  • 实验结论
    1. 我们发现,多语言模型在不同语言间有效地共享许多参数,精调可能会利用这些参数中的大量参数
    2. 除了byte to span,大多数NER架构没有从多语言模型中获得好处,尽管如此,比BTS更简单的模型,具有更多的归纳偏见,在单语和多语环境中都能胜过BTS
    3. 多语种权重转移到未见过的语言,结果不一。特别是,当多语种中存在高度词汇重叠或密切相关的语言时,就会发生转移
    4. 多语种模型比单语种模型更有效率,因为在给定的性能水平下,它们需要的参数少得多。这表明,许多参数是跨语言共享的

Models

评估三种多语言神经网络NER模型

Word Level CRF

相比BiLSTM-CRF,考虑三种变体

char-level model and byte-level model

前两个是字符级和字节级模型。我们考虑这些,因为Gillick等人(2016)表明多语言转移可以在字节级表征中发生,我们对涉及更多不同语言时字符是否产生类似结果感兴趣。每个词都以字符或字节序列的形式通过多层BiLSTM,以产生词级表征。词级表征进入句子级BiLSTM,它在每个时间步长上输出所有可能标签的对数。然后,这些对数被送入一个CRF模型(Lafferty等人,2001),该模型被训练为最大限度地提高黄金标签序列的对数可能性。

multilingual BERT

用bert来做词级的表示

我们将每个词的第一个子词的表示作为该词的表示,并将该子词位置的最后4层的输出连接起来作为我们最终的词表示。

CharNER

用字符级别表示来训练,但是在推理过程中使用词级边界

Byte to Span (BTS)

BTS是一个在字节序列上操作的序列到序列模型(Gillick等人,2016)。输入包括一个UTF-8字节的窗口,而输出是对输入序列中出现的标记实体 span 进行充分统计的序列。通过消耗字节并产生字节注释,它具有真正的语言无关性,不需要任何特定的语言预处理的诱人品质。尽管避免了对特定语言的预处理,BTS在没有预训练信息的情况下取得了与更多标准模型架构相当的结果。此外,在对所有4种CoNLL语言进行训练后,它在单语CoNLL中的表现有明显的改善。在本文中,我们发现这一趋势在我们的多语言环境中也是成立的

Experiments


Target Language Polyglot Adaptation Conclusion

这表明多语言模型事实上从观察多种语言中学习了更多的东西,而且这些信息可以转移到每种语言中。此外,这表明在不观察其他语言的情况下,使用标准训练目标可能无法实现单语模型的理想优化;我们发现更多的正则化并不能帮助单语模型。然而,对所有语言进行联合优化可能会提供一个太有挑战性的优化环境,以同时获得每种语言的最佳状态

Novel language transfer Conclusion

多语种参数对未见过的语言的可转移性取决于各种因素。我们猜想,这些因素 部分与原始多语种训练集中的语言相关联 在最初的多语种训练集中,这些因素与语言的相关性有部分联系

How do Polyglot Models Learn?

Error Analysis


Polyglot Parameter Efficiency

Model Compression

Important Weights Across Languages

Conclusions

我们探讨了多语言训练对NER在一系列模型中的好处。我们发现,虽然不是所有的模型都能从多语言训练中获益,但这些模型所学到的参数可以以特定的语言方式被利用,从而持续地超过单语言模型的表现。我们探究了多语言NER模型的特性,发现它们在所需的参数方面比单语言模型更有效,同时在所有语言中普遍保持了有竞争力的性能。我们表明,多语种模型中大量的参数共享可以部分解释这一点,另外发现特定语言的微调可能会使用这些共享参数中的很大一部分。在未来的工作中,我们将探索所观察到的趋势是否在更大的多语种环境中成立,例如Wikiann NER语料库(Pan等人,2017b)。

最后,关于多语种模型中语言间的权重共享,我们的主要结论是,标准的训练目标无法找到一个同时在所有语言中实现高任务性能的最佳方案。考虑到这一点,探索不同的训练策略,如多目标优化,可能被证明是有益的(Sener和Koltun,2018)。另一方面,当目标是在单一目标语言上实现性能最大化时,可能会使用弹性权重整合等方法进一步改进所提出的微调方法(Kirkpatrick等人,2016)。

Remark

novelty:还行
does it works ?:还行
problem size:较小

一篇中规中矩的paper,感觉没有太多的感觉

Raki的读paper小记:Sources of Transfer in Multilingual Named Entity Recognition相关推荐

  1. Raki的读paper小记:Prompting ELECTRA: Few-Shot Learning with Discriminative Pre-Trained Models

    Abstract&Introduction&Related Work 研究任务 基于提示学习的ELECTRA 已有方法和相关工作 ELECTRA 面临挑战 基于判别模型的预训练模型的f ...

  2. Raki的读paper小记:OFA: UNIFYING ARCHITECTURES, TASKS, AND MODALITIES THROUGH A SIMPLE Seq2Seq FRAMEWORK

    Abstract&Introduction&Related Work 研究任务 多模式预训练的统一范式 包括图像生成.visual-grounding(visual grounding ...

  3. Raki的读paper小记:Image as a Foreign Language: BEIT Pretraining for All Vision and Vision-Language Tasks

    Abstract&Introduction&Related Work 研究任务 语言+视觉模态预训练任务 已有方法和相关工作 masked data已经成为一种主流 面临挑战 现有的多 ...

  4. Raki的读paper小记:Named Entity Recognition without Labelled Data: A Weak Supervision Approach(半成品)

    Abstract & Introduction & Related Work 研究任务 无标注数据NER学习 已有方法和相关工作 Unsupervised domain adaptat ...

  5. Raki的读paper小记:Forget-free Continual Learning with Winning Subnetworks

    Abstract&Introduction&Related Work 研究任务 用子网络做CL 已有方法和相关工作 彩票假说(LTH)证明了稀疏子网络(称为中奖彩票)的存在,这些子网络 ...

  6. Raki的读paper小记:Neuro-Inspired Stability-Plasticity Adaptation for Continual Learning in Sparse Nets

    Abstract&Introduction&Related Work 研究任务 Continual Learning 已有方法和相关工作 面临挑战 创新思路 利用持续学习过程中的持续稀 ...

  7. Stetman读paper小记:ATTEQ-NN

    注:本周笔者阅读了龚雪鸾.陈艳娇的文章ATTEQ-NN:Attention-based QoE-aware Evasive Backdoor Attacks.本文讲了作者设计的一种基于注意力机制的后门 ...

  8. Stetman读paper小记:BackdoorBench - A Comprehensive Benchmark of Backdoor Learning

    之前因为参与了实验室后门攻击的项目,阅读了一下这篇关于后门学习的综合性基准测试的研究工作,在此记录一下学习笔记与心得. 1 摘要 这篇文章介绍了一个名为BackdoorBench的基准测试,用于评估后 ...

  9. Named Entity Recognition without Labelled Data:A Weak Supervision Approach论文详读

    Named Entity Recognition without Labelled Data: A Weak Supervision Approach 无标记数据的命名实体识别:一种弱监督方法 创新点 ...

  10. 【不想读paper的时候看看】阅读文献?

    [不想读paper的时候看看]为何阅读文献? 最近看了中国科学院大学(国科大/果壳)图书馆对我们一年级集中教学的同学关于图书馆资源与服务的培训PPT,截取了一些较有感触的slides做一下笔记. 1. ...

最新文章

  1. 你听过Oracle中rownum用法吗?
  2. matlibplot 一张图画多个曲线_一文读懂磁滞回曲线
  3. CentOS密码忘记后的操作
  4. python svg转png_Python实现批量把SVG格式转成png、pdf格式的代码分
  5. 如何设置运行在Virtualbox内的Ubuntu虚拟机的静态ip地址
  6. Spring自学日志05(代理模式)
  7. Android系统(23)---Android 应用分屏
  8. windows10怎样关闭,开机启动项中不需要的应用?
  9. qt控制程序打开记事本_QT记事本小部件教程(二):应用程序主要源文件main.cpp详细代码...
  10. [转载] Python3 日历(Calendar)模块介绍
  11. 非负矩阵分解 NMF(Non-negative Matrix Factorization )
  12. JDBC:java数据库连接对象
  13. 易编远航第七套大漠多线程多开入门高级篇
  14. android生成系统应用签名
  15. python求解偏微分方程_Python数值计算----------求解简单的偏微分方程
  16. 必修的十堂电影课(男人篇)
  17. bluedroid a2dp sink播放流程
  18. 如果能理解医生的准确意图,深度学习会是医疗诊断的未来吗?
  19. 如何在微信 [[公众号]]添加小程序卡片
  20. vim在文件尾部插入内容

热门文章

  1. 服务器更新维护尚未全部完成,03月07日全部服务器更新维护公告
  2. Precision、Recall、F计算:举例
  3. JMETER安装中遇到的问题(not able to find Java executable or version.Please check your java installation)
  4. NYOJ 表达式求最值305
  5. r语言 求平方和_R语言 第3章 R语言常用的数据管理(10)
  6. linux系统下部署程序,在linux系统下部署和更新程序的步骤.doc
  7. MATLAB--高斯牛顿法
  8. mysql有闪回吗_【赵强老师】MySQL的闪回
  9. 极客大学架构师训练营 系统架构 分布式数据库 Zookeeper 第12课 听课总结
  10. php mysql 1040_php – 如何修复消息:SQLSTATE [08004] [1040]连接太多