2.4 语料库的规模

既然你已经知道想要寻找何种类型的数据以及如何表现它,那么你还需要决定实际需要收集与标注多少数据。如果你计划使用一个已有的语料库,那么语料库的总规模已经确定,但是你可能仍然需要决定对语料库的多少内容进行标注。

一般而言,无论标注目标是什么,收集与标注的数据越多,就离达成目标越近。然而,在多数情况下,在讨论语言标注任务时“越大越好”并不是切实可行的——时间、金钱、有限的资源以及精力都可能是限制你和你的标注人员能完成标注规模的因素。

注意: 如果这是你收集数据工作的第一轮,那么最重要的事情是产生一个包含与任务有关的所有现象例子的样本语料库。

也就是说,我们建议在第一次进行文档标注时从较小的规模开始——首先为标注人员选择少量的文档,看看标注任务与标注指南是否合适(标注指南将在第6章中讨论)。一旦你已经解决了一些问题,就可以返回到前面的步骤中并在需要时增加语料库。

不幸的是,我们无法给你一个具体的数字来决定语料库需要达到多大规模才能取得好的结果,这种魔幻数字并不存在。语料库规模的大小很大程度上取决于标注任务的复杂程度,但是即使有办法量化标注方案中的“复杂度”也不能解决所有问题。然而,已在使用中的语料库可以为我们提供一些经验法则帮助判断应该计划构建多大的语

料库。

2.4.1 现有语料库

在决定语料库规模时一个简单的经验法则是考察正在类似任务中使用的现有语料库。表2-2显示了到现在为止我们已经讨论的一些语料库的规模。如你所见,它们并没有全部使用相同的标准来衡量语料库规模。这在很大程度上取决于语料库的目标——用于文档级评价的语料库(比如自然语言处理工具箱(Natural Language Toolkit, NLTK)中的电影评论)一般提供文档数作为参考,而以单词或者短语为基本单位的标注任务则通常将报告单词或短语的数量作为衡量标准。

表2-2:依据估计的大小排序的现有语料库

语料库 估计的大小

ClueWeb09 1 040 809 705个网页

英国国家语料库 1亿个单词

美国国家语料库 2200万个单词(截至本书写作时)

TempEval2(SemEval2010的一部分) 每种语言数据集包含1万~6万个词例

宾州话语树库 100万个单词

i2b2 2008竞赛——吸烟状态 502份医院治疗报告

TimeBank 1.2 183份文档;61 000个词例

情感歧义形容词消歧(中文数据,SemEval 2010 4 000个句子

的一个部分)

你可能已注意到,后面3个语料库的规模比其他语料库小——这是因为这3个语料库主要用于自然语言处理竞赛中,竞赛的内容是在有限时间内执行某个自然语言处理机器学习任务。这个限制也包括用于构建训练和测试数据集的时间。为保证标注工作的可行性,语料库的规模就不可能太大,而且有时候标注方案也可能会简化。但是,这些竞赛的结果常常没有将更多时间用于构建规模更大、标注质量更高语料库情况下的结果好。

2.4.2 语料库内部的分布

前面我们曾经提到过,为了增加信息量应将多种类型的数据收入语料库中。这里我们将展示一些例子来说明已有语料库中不同来源数据的分布。

例如,TimeBank是一个包含183篇新闻文章的集合,所有文章均标注了时间和事件信息。然而,TimeBank中的所有文章并不是以同样的方式产生的:有些是广播转写文本,有些是日报文章,还有一些是为新闻专线广播而写的文章。类型分布的情况如图2-2所示。

如你所见,虽然语料库大量收录了日报文章,但也体现了其他数据来源。包含这些不同来源的数据可以帮助我们了解在类似但并不相同的媒介中如何表示时间和事件。

图2-2:TimeBank数据来源分布

英国国家语料库(BNC)是另一个包含多源数据的语料库——数据来源的差异比TimeBank还要大。图2-3显示了BNC中的文本类型的分布,与BNC的参考指南中所描述的一样。

图2-3:BNC中的文本类型的分布

自然地,在评价一个语料库的平衡性时还可以考虑其他的分布角度。BNC还提供了基于出版日期、领域、媒介以及包括作者信息和预期听众在内的子类分析的语料库分析(如图2-4所示)。

图2-4:BNC中的出版日期

对于语料库来说,不太可能考虑覆盖所有这些可能类型的代表样本。换言之,使可能带来差异的影响降至最低是一个好的策略,尤其是当你刚刚开始从事标注工作时。比如,确定所有文本均来自同一时期,或者核实所有的说话者均是你要求他们所说语言的母语者都是你可能需要考虑的事情,即使你最终决定在你的语料库中不包括这种差异。

总结

本章讨论了创建好的目标定义时需要考虑的关键因素,以及目标怎样影响数据集。具体地,我们考察了以下要点:

对标注任务的目标给出清晰的定义有助于使你在开始创建任务定义和撰写标注指南时行驶在正确的轨道上。

在标注任务中往往需要在信息量与正确性之间寻求平衡——请注意,一定不能为了迎合某一方面而过多地牺牲另一方面。

清晰地定义标注任务的范围将使语料库来源的选择变得更加容易,在以后还将使确定标签集和撰写标注指南变得更加容易。

进行一些背景研究能帮助你在进行自己的标注任务时避免重复已有的工作。

利用现有语料库作为数据集会使其他必要的分析变得更加简单。

如果现有语料库不能适应你的需要,那么可以自行构建一个新的语料库,但请仔细考虑到底需要什么样的数据以及哪些因素可能使任务变得复杂?

现有的各种工具和编程语言能帮助你从因特网上收集数据。

你打算呈现给标注人员的信息将是影响标注的一个重要因素,尤其是在那些比较依赖标注人员的主观意见或者是对文本的主观解读而非客观事实的任务中。

面向机器学习的自然语言标注2.4 语料库的规模相关推荐

  1. 面向机器学习的自然语言标注导读

    前言 本书的读者是那些使用计算机来处理自然语言的人.自然语言是指人类所说的任何一种语言,可以是当代语言(如英语.汉语.西班牙语),也可以指过去曾经使用过的语言(如拉丁语.古希腊语.梵语).标注(ann ...

  2. 面向机器学习的自然语言标注

    作者:[美] 普斯特若夫斯基(James Pustejovsky),[美] 斯塔布斯(Amber Stubbs) 出版社: 机械工业出版社 ISBN:9787111555155 丛书名: OReill ...

  3. NLP自然语言处理-机器学习和自然语言处理介绍(五)

    NLP自然语言处理-机器学习和自然语言处理介绍-知识抽取构建流程 1.什么是知识抽取 知识抽取,即从不同来源.不同结构的数据中进行知识提取,形成知识(结构化数据)存入到知识图谱. 知识抽取的三个基本任 ...

  4. 机器学习与自然语言处理

    一. 引言<?xml:namespace prefix = o ns = "urn:schemas-microsoft-com:office:office" /> 随着 ...

  5. NLP自然语言处理-机器学习和自然语言处理介绍(四)

    NLP自然语言处理-机器学习和自然语言处理介绍-事件抽取 一.案例介绍 1.背景 事件抽取技术的核心价值,是可以把半结构化.非结构化数据转换为对事件的结构化描述,进而支持丰富的下游应用. 比如说我们要 ...

  6. NLP自然语言处理-机器学习和自然语言处理介绍(一)

    "NLP自然语言处理-机器学习和自然语言处理介绍" 一.机器学习 1.什么是机器学习 从广义上来说,机器学习是一种能够赋予机器学习的能力以此让它完成直接编程无法完成的功能的方法.但 ...

  7. 科研指导:机器学习与自然语言处理

    ↑↑↑关注后"星标"Datawhale 每日干货 & 每月组队学习,不错过 Viax科研教育 科研方向:机器学习与自然语言处理 盐趣是一家专业的在线科研教育机构,核心教研团 ...

  8. Jeff Dean| 面向系统的机器学习和面向机器学习的系统

    来源:全球人工智能 概要:我们将发布一系列内容,展示 Google 在 NIPS 2017 上发布的工作成果.首当其冲的便是来自 Jeff Dean 的 PPT <面向系统的机器学习和面向机器学 ...

  9. [NSDI 17] TuX2: 面向机器学习的分布式图计算系统 学习总结

    今天要讲的文章NSDI 2017年的一篇文章,TUX2: Distributed Graph Computation for Machine Learning.本文主要想解决的问题就是:在图形引擎(如 ...

  10. 基于python的语料库数据处理电子版_基于 Python 自然语言处理工具包在语料库研究中的运用...

    基于 Python 自然语言处理工具包在语料库研究中的运用 刘 旭 [摘 要] 摘要:国内当前以语料库为基础的研究,在研究工具方面,多以 AntConc . PowerGREP 为主,使用 Pytho ...

最新文章

  1. SAP WM初阶之LX09查询TR List
  2. python中等于号可以用is代替_python中字符串比较使用is、==和cmp()总结
  3. DBeaverEE 21.1.0安装指南
  4. @ta,一起过节吧!
  5. 检测到在集成的托管管道模式下不适用的ASP.NET设置
  6. Android功耗(21)--- App耗电发热分析
  7. VMware与Hyper-V不兼容
  8. 关于wordpress主题只显示一个的解决办法
  9. STC51单片机中断介绍
  10. Python爬虫练习:爬取蜂鸟网图片数据
  11. Cocos 2dx - lua Action动作方法
  12. 厦大考研计算机学硕,21厦大考研:专硕VS学硕,怎么选才不翻车?
  13. java中的\uxxxx
  14. 微信投放卡券-支付即会员
  15. 3D打印无人机等无人设备6——谈一谈从设计到实践的分分合合,模型如何合并与拆分?
  16. HDRP UI上渲染模型的解决方式及常见问题
  17. 儿童学编程的原因以及方法
  18. docker启动rancher后打不开bashboard
  19. CIE1931-XYZ表色系统
  20. 51单片机用c语言在液晶1602上显示汉字,lcd1602与单片机连接图,基于51单片机的lcd1602液晶显示屏连接电路图...

热门文章

  1. 二本华南师范计算机考研,经验贴|19华师软工专硕|初试415,二本逆袭211
  2. android开源系统brvah,Brvah——一个强大的Adapter框架
  3. 明解c语言 练习,《明解C语言》示例代码和练习代码[第8章]
  4. 西铁城手表最外圈数字是什么_有的手表表盘外面有一圈数字,可以转动,是计算什么用的?...
  5. duet for Mac(Mac投屏软件)好用又不花钱
  6. YOLO算法v1-v3原理通俗理解
  7. mem考试能用计算机吗,Memtest可以通过多少次?
  8. 快速开发平台learun7.0.3发布,看看各版本有什么更新吧
  9. .net core快速开发平台,learun自主工作流引擎设计规范
  10. wifi技术扫盲-MIMO