2.2 质量控制

自动和手动的数据准备的好的工具是必不可少的。然而,一个高质量的语料库的建立很大程度取决于文档、培训和工作流程等平凡的东西。标注指南确定任务并记录标记约定。它们可能会定期更新以覆盖不同的情况,同时制定实现更一致的标注的新规则。在此过程中标注者需要接受训练,包括指南中没有的情况的解决方法。需要建立工作流程,尽可能与支持软件一起,跟踪哪些文件已被初始化、标注、验证、手动检查等等。可能有多层标注,由不同的专家提供。不确定或不一致的情况可能需要裁决。

大的标注任务需要多个标注者,由此产生一致性的问题。一组标注者如何能一致的处理呢?我们可以通过将一部分独立的原始材料由两个人分别标注,很容易地测量标注的一致性。这可以揭示指南中或标注任务的不同功能的不足。在对质量要求较高的情况下,整个语料库可以标注两次,由专家裁决不一致的地方。

报告标注者之间对语料库达成的一致性被认为是最佳实践(如通过两次标注 10%的语料库)。这个分数作为一个有用的在此语料库上训练的所有自动化系统的期望性能的上限。

小心!

应谨慎解释标注者之间一致性得分,因为标注任务的难度差异巨大。例如,90%的一致性得分对于词性标注是可怕的得分,但对语义角色标注是可以预期的得分。

Kappa 系数 K 测量两个人判断类别和修正预期的期望一致性的一致性。例如,假设要标注一个项目,四种编码选项可能性相同。这种情况下,两个人随机编码预计有 25%可能达成一致。因此,25%一致性将表示为 k = 0,相应的较好水平的一致性将依比例决定。对于一个 50%的一致性,我们将得到 k = 0.333,因为 50 是从 25 到 100 之间距离的三分之一。还有许多其他一致性测量方法;详情请参阅help(nltk.metrics.agreement)。

图 2.1:一个序列的三种分割:小矩形代表字、词、句,总之,任何可能被分为语言单位的序列;S1和 S2是接近一致的,两者都与 S3显著不同。

我们还可以测量语言输入的两个独立分割的一致性,例如分词、句子分割、命名实体识别。在2.1中,我们看到三种可能的由标注者(或程序)产生的项目序列的分割。虽然没有一个完全一致,S1和 S2是接近一致的,我们想要一个合适的测量。Windowdiff 是评估两个分割一致性的一个简单的算法,通过在数据上移动一个滑动窗口计算近似差错的部分得分。如果我们将词符预处理成 0 和 1 的序列,当词符后面跟着边界符号时记录下来,我们就可以用字符串表示分割,应用 windowdiff 打分器。

>>>s1="00000010000000001000000"

>>>s2="00000001000000010000000"

>>>s3="00010000000000000001000"

>>>nltk.windowdiff(s1,s1,3)

0.0

>>>nltk.windowdiff(s1,s2,3)

0.190...

>>>nltk.windowdiff(s2,s3,3)

0.571...

上面的例子中,窗口大小为 3。Windowdiff 计算在一对字符串上滑动这个窗口。在每个位置它计算两个字符串在这个窗口内的边界的总数,然后计算差异。最后累加这些差异。我们可以增加或缩小窗口的大小来控制测量的敏感度。

python的质量控制模块_11. 语言学数据管理 - 2.2 质量控制 - 《Python 自然语言处理 第二版》 - 书栈网 · BookStack...相关推荐

  1. python3内存分析_调试和分析 - tracemalloc —- 跟踪内存分配 - 《Python 3.7 标准库》 - 书栈网 · BookStack...

    tracemalloc -- 跟踪内存分配 3.4 新版功能. The tracemalloc module is a debug tool to trace memory blocks alloca ...

  2. 使用aws跑深度学习_11. 附录 - 11.4. 使用AWS运行代码 - 《动手学深度学习》 - 书栈网 · BookStack...

    11.4. 使用AWS运行代码 当本地机器的计算资源有限时,可以通过云计算服务获取更强大的计算资源来运行本书中的深度学习代码.本节将介绍如何在AWS(亚马逊的云计算服务)上申请实例并通过Jupyter ...

  3. 【Python 自然语言处理 第二版】读书笔记1:语言处理与Python

    文章目录 前言 语言处理与Python 一.语言计算:文本和单词 1.NLTK入门 (1)安装(nltk.nltk.book) (2)搜索文本 (3)词汇计数 2.列表与字符串 (1)列表操作 (2) ...

  4. python的质量控制模块_10.11. 质量控制

    开发高质量软件的方法之一是为每一个函数开发测试代码,并且在开发过程中经常进行测试. doctest 模块提供了一个工具,扫描模块并根据程序中内嵌的文档字符串执行测试.测试构造如同简单的将它的输出结果剪 ...

  5. python的质量控制模块_Python 代码的质量控制之 flake8 Pylint

    为什么需要质量控制工具 无需多言,我偏执地认为,所有动态语言写成的项目,都应该使用 XXLint 之类的工具,该暴露的错误能提前就提前. 甚至,所有项目在 commit 之前都需要做两件事情: lin ...

  6. 【Python 自然语言处理 第二版】读书笔记2:获得文本语料和词汇资源

    文章目录 一.获取文本语料库 1.古腾堡语料库 (1)输出语料库中的文件标识符 (2)词的统计与索引 (3)文本统计 2.网络和聊天文本 3.布朗语料库 (1)初识 (2)比较不同文体中的情态动词的用 ...

  7. python核心编程第二版pdf_Python Book电子书pdf版合集 Python核心高级编程第二版

    1小时学会Python.doc 51CTO下载-[Python系列].BeginningPythonFromNovicetoProfessionalSecondEdition.pdf 8.Python ...

  8. 我的新书《Python3网络爬虫开发实战(第二版)》获得 Python 之父的推荐了!

    这是「进击的Coder」的第 492 篇分享 作者:崔庆才 别急,这书现在还没上市哈,但很快了! 最近朋友们一直在催:你的第二版爬虫书怎么还不出来啊,我都等了好几年了!你不是前几个月就完稿了吗?咋这么 ...

  9. 《Python自然语言处理(第二版)-Steven Bird等》学习笔记:第11章 语言数据管理

    第11章 语言数据管理 11.1 语料库结构:一个案例研究 主要设计特点 基本数据类型 11.2 语料库生命周期 语料库创建的三种方案 质量控制 维护与演变 11.3 数据采集 从网上获取数据 从字处 ...

  10. python空气质量分析与预测_python 空气质量AQI数据分析与预测 ---分析,相关系数矩阵...

    版权声明:本文为博主原创文章,遵循CC 4.0 by-sa版权协议,转载请附上原文出处链接和本声明. 本文链接:https://blog.csdn.net/YmeBtc/article/details ...

最新文章

  1. 为什么我参加了那么多学术会议依旧一无所获?
  2. 连续锁定2个不同的锁会死锁_研究死锁–第5部分:使用显式锁定
  3. vs自带iis局域网调试
  4. kafka server常用核心配置
  5. 编译vuejs html,VueJs(2)---VueJs开发环境的搭建和讲解index.html如何被渲染
  6. linux命令音乐视频合并,Linux下基于命令行的音乐播放器 (1)
  7. 按下组合键 可以迅速锁定计算机,Win7锁定计算机快捷键是什么?Win7使用锁定计算机快捷键的方法...
  8. 试验笔记 - Eclipse的.class反编译插件
  9. 廖雪峰Java1-1Java入门-java简介
  10. 已知坐标求方位角_震惊,up主居然能默写球坐标拉普拉斯算子!
  11. Hyperledge Fabric-身份与角色认证
  12. html比较长的单词不自动换行,HTML+CSS 对于英文单词强制换行但不截断单词的解决办法...
  13. OKCC坐席号和分机号有什么区别?
  14. 服务器数据迁移:为知笔记私服数据迁移
  15. 2021-05-31
  16. 普通本科,开发一周年纪念日—-赠给自己的礼物
  17. CentOS7.5 重装 SSH 与 禁止网卡休眠
  18. python绘制动漫人物图片女生可爱_绘画动漫人物图片女生唯美
  19. c语言编程一对新出生的兔子,C语言兔子生兔子的问题(3中解法)
  20. linux 中输入bash,Linux上Bash Shell编程

热门文章

  1. 毕设题目:Matlab图像边缘检测
  2. php 判断是否在线,关于判断用户是否在线的问题!!!
  3. adb脚本选择语句_Python开发:王者荣耀自动刷金币脚本
  4. ai/ml_您应该在本周(7月11日)阅读有趣的AI / ML文章
  5. 变异数分析_人工智能系统中分析变异的祸害
  6. int是终结符还是非终结符_什么是自动化的终结?
  7. spring异常:Could not resolve placeholder
  8. oracle-手动锁表
  9. 用户、组和权限命令练习
  10. js返回上一页并刷新、返回上一页、自动刷新页面