最近看到一篇论文,是探讨关于NER数据标注中标签一致性问题的。

数据标注在建立基准和确保使用正确的信息来学习NER模型方面起着至关重要的作用。要想获得准确的标签,不仅需要时间还需要专业知识。然而标签错误又几乎是无法避免的,错误的标签会导致标注数据子集(例如,训练集和测试集,或多个训练子集)之间的标签不一致。标签的不一致性是影响NER任务性能提升的因素之一,比如在被引用超过2300次的标准NER基准CoNLL03数据集中,发现测试集中有5.38%的标签错误,当对其中的错误标签进行纠正后,相比于原始测试集得到的结果更加准确和稳定。

标签的一致性验证需要解决两个关键问题:1)如何识别标注的数据子集之间的标签不一致?2)如何验证纠正后的标签一致性得到恢复?

1

标签不一致性示例

如下表所示,三个示例是用于比较SCIERC数据集的测试集中原始标注和校正后的标注。其中前两个是具有错误的实体类型,第三个是具有错误的实体边界。像前两个示例中的实体标记,如果在标注过程中始终遵循用于标注训练数据的“codebook”,那么一定能够将前两个示例中的实体标记为“Task”,而非“Method”。

2

标签不一致性识别

如下图所示,是识别测试集与训练集的标签不一致性。以SCIERC数据集为例,从训练集中采样三个互斥子集(大小为x),选择这三个互斥子集中的一个子集作为新的测试集,然后构建三个新的训练集,分别为:

  • “TrainTest”:首先提供一个训练子集,然后再提供一个原始测试集

  • “PureTrain”:提供两个训练子集

  • “TestTrain”:首先输入原始测试集,然后输入一个训练子集

然后训练NER模型以在新的测试集上执行,结果表明,“TestTrain”在早期阶段表现最差,因为原始测试集的质量不可靠。在“TrainTest”中,当开始向模型提供原始测试集时,性能不再提高。“PureTrain”表现最好。所有观察结果都得出结论,原始测试集比训练集本身对训练样本的预测性差。而在其他的两个数据集WikiGold和WNUT16上没有这样的观察结果,则这可能是由于标签不一致导致的问题。

3

标签一致性验证

这是对纠正错误标签后的标签一致性进行验证,同样将训练数据中的子集作为新的测试集,以评估原始错误测试子集、更正后的测试子集以及其余训练子集的可预测性。以SCIERC数据集为例,假设在测试集中纠正了y+z个句子中的z个,原始的错误测试子集("Mistake")和校正后的测试子集(“Correct”)的大小均为z(z=147),在训练集中采样三个互斥子集,分别为x、y、w,使用训练集中第一个子集x作为新的测试集,然后建立四个新的训练集(每个新的训练集都有y+w+z=1355个句子)如下:

  • “TestTrainMistake”/“TestTrainCorrect”:原始的良好测试子集,第三个采样的训练子集和原始的错误测试子集(或校正后的测试子集)

  • “PureTrainMistake”/“PureTrainCorrect”:第二个和第三个采样的训练子集以及原始错误的测试子集(或校正后的测试子集)

  • “MistakeTestTrain”/“CorrectTestTrain”:原始错误的测试子集(或更正的测试子集),原始的良好测试子集和第三个采样的训练子集

  • “MistakePureTrain”/“CorrectPureTrain”:原始错误的测试子集(或更正的测试子集)以及第二个和第三个采样的训练子集。

然后训练NER模型,结果表明,标签错误(即原始错误的测试子集)在开始或最后被输入时都会损害模型性能。校正后的测试子集可提供与原始良好测试子集和训练子集相当的性能。这证明了校正后的测试集与训练集的标签一致性。

4

标签一致性对NER模型性能的影响

实验一:在SCIERC上的结果

基于SCIERC数据集,部署五个NER模型,研究它们在校正后的SCIERC数据集上的性能。如下图所示,所有NER模型在校正后的SCIERC上都要比原始数据集提供更好的性能。

实验二:在CoNLL03上的结果

如下图a所示,在原始测试集中以错误的标签开头会使性能比从训练集或良好的测试子集开始的性能差。如下图b所示,在标签校正之后,此问题得到修复。

参考资料:

[1]https://arxiv.org/pdf/2101.08698v1.pdf

END -


往期精彩回顾适合初学者入门人工智能的路线及资料下载机器学习及深度学习笔记等资料打印机器学习在线手册深度学习笔记专辑《统计学习方法》的代码复现专辑
AI基础下载机器学习的数学基础专辑
本站知识星球“黄博的机器学习圈子”(92416895)
本站qq群704220115。
加入微信群请扫码:

【NLP】NER数据标注中的标签一致性验证相关推荐

  1. 如何理解数据质量中准确性和一致性的区别?

    大家周末好,我是志明. 今天回忆并记录一下前几天群里看见的某个话题讨论. 1.有位读者问道:"为什么数据质量维度同时包括准确性和一致性,不应该是准确性包括一致性吗,总感觉在中文字面上这两个词 ...

  2. 众包数据标注中的隐类别分析

    0. 写在前面 这时一篇关于田天.朱军的一篇论文的读后感和自己的一点思考. 1. 众包 众包(crowdsourcing)这个词,第一次听到还是众包数据库,是从老班长那里听到的.细想起来,我对外包(o ...

  3. 击碎数据标注五大误解,这门生意真不是你想象的“富士康” | 钛媒体深度

    关注ITValue,看企业级最新鲜.最价值报道! ▎"数据标注师是最后一批被AI取代的群体,因为总有些工作需要人来做." "我觉得标注行业一直在承受误解,特别是在被贴上人 ...

  4. 有多少智能,就有多少人工?人工智能背后的数据标注师

    "目前我国已有庞大的数据加工队伍,仅北京就有一百多家专门从事数据标注的公司,全国从事这项工作的人大概超过千万,很多头部的互联网技术企业都有自己的数据标注公司." 目前人工智能落地场 ...

  5. AI发电厂——数据标注公司(国内数据标注公司服务调研)

    众所周知,深度学习需要大量的标记数据和高效的运算来做支撑. 计算资源只要从黄老板的公司订购就可以了,但大规模的高质量有标记数据却不是那么容易获得,让科研人员头疼不已. 应用时代而生的就是一大批数据众包 ...

  6. 我猜,你还不知道数据标注公司在做什么吧?

    文章发布于公号[数智物语] (ID:decision_engine),关注公号不错过每一篇干货. 来源:觉醒向量 大多数AI实验室.初创型AI公司在发展初期如果雇佣大量的人力进行数据标注,就不得不面临 ...

  7. 人工智能数据标注都有哪些类型

    人工智能数据标注都有哪些类型 人工智能数据标注指的是,将非结构化数据转换成电脑可以识别理解的结构化数据. 例如,将下图中的车识别出来,人看到车的外轮廓是: 但是需要让电脑去识别认知这个图中的车,电脑需 ...

  8. Magic Data 位列 2022 数据标注公司排行 TOP3

    近日,Magic Data(北京爱数智慧科技有限公司)上榜互联网周刊 2022 数据标注公司排行榜 Top3. 人工智能大道的 "基石" 人工智能的目标指向了对人思维过程的复刻,它 ...

  9. 数据标注员需要专业系统的学习么?

    又是忙碌的4月份,好多小伙伴留言催更了,先给小伙伴们汇报一下最近在处理的一些事情的进展,然后针对最近跟小伙伴交流的一些问题跟大家在做一个分享. 在山西吕梁联合当地政府做了第一期人工智能训练师培训. 保 ...

最新文章

  1. GDOI2017第二轮模拟day1 总结
  2. Android Studio编译提示如下attribute layout_constraintBottom_toBottomOf (aka com.luck.pictureselector:layou
  3. mysql安装版卸载_MYSQL安装与卸载(一)
  4. python合并文件夹下的文件_Python实现合并同一个文件夹下所有txt文件的方法示例...
  5. 【微服务架构】SpringCloud组件和概念介绍(一)
  6. Hive静态分区和动态分区
  7. WorkStation9完美支持Win8
  8. python shell怎么调字体大小_如何更改在Python Shell字体大小
  9. Linux 简单查看网卡实时网速
  10. idb 怎么回复mysql_MySQL删除idb文件引发的思考
  11. Cocos Creator:高效率内容生产,引领全平台制霸!
  12. Cutting (暴力 + 滚动哈希判字符串匹配)
  13. 上半年要完成的博客51
  14. 为什么RGB 与 CMYK的差异,会有所不同?
  15. 从 LoG 到 DoG 再到 XDoG, FDoG
  16. 手机199开头的号码的正则验证
  17. 读书笔记——漫画中国式项目管理
  18. 2019 CCCC 天梯赛 杭州站 历程
  19. 高级网络管理员必学知识
  20. MyBatis 入门 (二级缓存脏读)

热门文章

  1. 转载:flash 跨域 crossdomain.xml
  2. #define与const的差别
  3. A__Java为数据结构提供的实用包的运用(减少代码量)---更新中ing
  4. 【Rain in ACStar HDU-3340】
  5. HDU-3480 Division (四边形不等式优化DP)
  6. org.simpleframework.xml.core.Persister
  7. 如何使用Web of Science进行文献追踪?
  8. Mybatis报错ClassNotfind
  9. 基于php的问答,thinkask
  10. java中注解动态传参_SpringMVC之注解、传参、返回值及拦截器