语料库的建设与开发

(一)总体设计

首先语料库的建设目的要明确,建库的目的决定着语料的选取。

如由广东外语外贸大学桂诗春教授和上海交通大学杨惠中教授等主持建设的中国学习者英语语料库(CLEC)建库目的是:1、通过分析中国英语学习者写作中典型错误及其与学习者中间语发展的内在关系,为中国外语教学,尤其是英语写作教学,提供积极反馈;2、对学习者语料库与英语本族语语料库进行对比分析。

语料库的规模设计。在规模上,只要条件允许,应该是语料库的规模越大越好。就语料库发展趋势来看,建立固定规模的语料库并非语料库发展的大趋势,因为语言本身是动态发展的,语料库也应当是动态的,可以不断扩充的。

语料库的内容。如果说规模是针对量的问题,那么,内容就是要解决质的问题。

对于内容,最根本的是要真实,它包括两个方面,1、要收集实际使用中的文本,而不能是研究者杜撰的;2、要收集符合条件的文本。如要建立的是学习者语料库,要分析的是学生的真实语言能力,就不能把学生抄袭书本的东西收进来。

(二)具体实施

1、语料的搜集

现代计算机技术和网络资源使得语料库语料的获得变得方便容易。

传统的语料库建设,

语料输入工作极为浩繁,基本上靠手工键盘输入和扫描输入,费时费力,且容易出现错误,需要校对。如今大量的在线语料资源、光盘资料、因特网资源,包括新闻、邮件列表、电子邮件等,使语料库的建设和扩充变得非常快捷方便。

当然,用于不同研究目的的语料库对其语料来源可能要求不同,会影响到语料的采集。

2、抽样

语料库在语料抽样范围和文类覆盖方面都要尽可能取得平衡,要考虑每一文类、体裁、

语域、主题类型等的抽样比例。乔姆斯基曾经批评语料库不过是试图用很小的样本代表巨量的甚至无限的实际语言材料,其结果必然存在偏差,缺乏代表性。目前,计算机语料库可以通过控制抽样过程和语料比例关系来缩小偏差,增强语料的代表性。

决定语料代表性的主要因素是样本的抽样过程和语料量的大小。语料库一般采用随机抽样方法。一种做法是在抽样前首先确定抽样的范围,再就是确定语料的分层结构,进行分层抽样,如把语料按文类(如小说、新闻报道、科学论文、法律文书、诗歌、散文等)和信道(如书面语和口语)进行分层抽样。

在抽取比例上可根据需要采用平均比例均衡抽样或不等比例的塔式抽样。

3、语料库的加工

文本输入计算机后,一般需要进行一些加工,主要包括语料的标识和语料的赋码。

1)语料库的标识

标识主要分两类:一类是对文本的性质和特征进行标识,另一类是对文本中的符号、格式等进行标识。

如CLEC语料库标注了以下主要信息,包括学生类型、性别、累计学习年限、自然年龄、作文完成方式、是否是用词典、作文类型、所在学校、作文得分、作文标题、大学英语四、六级试卷作文编码。第一类标识是必要的,因为它们可以用来对文本进行必要的分类,为灵活提取文本进行各类目的研究提供便利,而且它们可以标注在文本开头或者作为另一个文件保存,丝毫不破坏语料的完整性和原始性。

至于第二类标识可以视研究和应用的目的而定。但不管怎样,保存一份未标识的原文本是很有必要的。

2)赋码

一些研究不需要赋码语料库,而有些研究需要赋码语料库。

当前,语料库的赋码主要有两类:一类是词类码,又称语法码;另一类是句法码。

词类赋码就是对文本中每一个词标注词类属性,这项工作通常是在传统语法对词类的划分的基础上进行的,只是分类适应要求做得更细。

如在LOB语料库中以NN代表普通名词的单数形式,以NNP代表以大写字母开头的普通名词的单数形式,如Englishman ,以NNS代表普通名词的复数形式,如desks,以VB代表动词的基本形式,如write、see,以VBD 代表动词的过去式,如wrote 、saw,以VBG代表动词的现在分词形式,如reading 、eating ,以 VBN 代表动词的过去分词形式,如written 、seen,等等。

目前自动词类赋码技术已经基本成熟,对英语基本上可以通过计算机自动赋码,且赋码正确率在96%—97%左右。

句法赋码就是对文本中的每一个句子进行句法标注。以UCREL概率句法赋码系统为例,其句法赋码系统分三个步骤:第一步,对文本中每一个词赋以可能的句法码。

该步骤主要依赖于一部标明每一可能词类码对子的句法符的词典。第二步,寻找一些特殊的语法码形式和句法片断,对句法结构作必要的修改。最后,完成每一可能的句法分析,并逐一赋值,从中选出可能性最大,即值最大的句法分析作为每句的分析结果。

词类赋码和句法赋码为语言的量化研究创造了条件,为进一步研究自然语言的概率性特征提供了方便,为进一步的语义、语法和语用分析等打下了基础。

4、语料库引擎

通常意义上的计算机语料库一般包括语料库本体(即语料库电子文本)和语料库引擎(即

语料库索引程序)两个部分。

索引工具的基本功能包括词频统计、词表生成、语篇统计、关键词索引、排序、搭配词统计、词语型式统计、主题词提取、词丛统计、词图统计等等。

网上提供了一些可以利用的工具软件,包括MicroConcord、Wordsmith Tools、TACT、Concordance 1。1。3 、TEC Concordancing Tools 具有提供词语索引、搭配词表以及各词语索引行的扩展语境的功能,允许用户把索引结果存储在自己的硬盘上。

MicroConcord 可进行带语境的关键词索引。 利用它可以观察关键词所在语篇,获得左右搭配词表。

Wordsmith Tools 具有下列功能:1)生成词表、可按词频、字母顺序分别排列,并提供各种统计信息;2)关键词提取。可进一步统计分析关键词在语篇中的分布,再生成该语料库的主要关键词,还可以查出某一关键词的联想词汇。

3)提供词汇词语型式表和搭配词位置分布等极有价值的信息,使研究者可以从多种角度对词汇运用进行分析。4)查询结果可以很方便地转换为表格形式,并读入到MS Access、Excel 等数据库中进行相关的分析统计。

TACT是一个语料库索引软件包,它具有全文索引、语境中的关键词索引、词表生成、词频统计、搭配词自动提取、语料比较等强大的功能。

Concordance 除了一般文本索引软件所具有的功能外,其独特之处是能够把索引结果自动生成HTML网页,供在线浏览。它是一个独立软件,可利用它对任何语料库文本进行索引分析。

全部

如何建语料库_语料库-如何建设语料?如何建设语料库 爱问知识人相关推荐

  1. 陕西渭南有什么小吃_爱问知识人

    陕西渭南有什么小吃_爱问知识人 陕西渭南有什么小吃_爱问知识人 陕西渭南有什么小吃 双双姑娘 渭南 陕西 小吃 2005-07-29 22:03 来自爱问知识人浏览量:2151 推荐 举报 关注 他们 ...

  2. 主板上纽扣电池是什么型号的?_爱问知识人

    主板上纽扣电池是什么型号的?_爱问知识人 主板上纽扣电池是什么型号的?_爱问知识人 主板上纽扣电池型号一般是CR2032,32是电池厚度. 到电脑城花5元钱买一块换上即可. posted on 201 ...

  3. gp338信令_对讲机的问题1gp338在按ptt键讲话时,如何加入mdc12 爱问知识人

    GP/GM338 1200信令设置攻略 GP338的MDC1200信令选呼编程简介 一.如下读出对讲机数据 二.双击Signaling Configuration如下: 其中编码信令功能有: Call ...

  4. java button名字_如何实现java按钮的名字输出到文本框鄙人刚学java,题目如 爱问知识人...

    import java.awt.BorderLayout; import javax.swing.JPanel; import javax.swing.JFrame; import javax.swi ...

  5. 为什么哲学是最难的学科_什么是哲学哲学对大师来说可能非常理论化,没有一定哲学基础肯能很难 爱问知识人...

    我的总结是 科学哲学是从哲学角度考察科学的一门学科.它以科学活动和科学理论为研究对象,探讨科学的本质.科学知识的获得和检验.科学的逻辑结构等有关科学认识论和科学方法论的基本问题. 哲学是什么? 这是一 ...

  6. 太阳能电池基本特性实验报告_太阳能电池基本特性研究实验报告的数据处理Ini怎么?太阳能电池基 爱问知识人...

    摘要:实验结果的表示,首先取决于实验的物理模式,通过被测量之间的相互关系,考虑实验结果的表示方法.常用到数据处理方法有作图法,列表法,平均值法,最小二乘法等.在处理数据时可根据需要和方便选择任何一种方 ...

  7. Java中怎样创建数据库_在java中怎样创建MySQL数据库列表给个例子 爱问知识人

    java中怎样创建MySQL数据库列表 需要使用jdbc访问数据库. 具体步骤如下: 1:加载驱动 ,返回连接 private static final String DRIVER_CLASS = & ...

  8. mysql错误代码1怎样解决_打开网页提示mysql发生错误,错误号1194,请问下该怎么解决? 爱问知识人...

    今天上服务器一看,发现网页错误,无法连接数据库服务器.mysql服务自己down掉了,然后重新启动服务器,发现网页无法打开,提示: [mysql]Table tblName is marked as ...

  9. 比较经典的java程序_一些经典的java小程序代码,最好能复制后直接使用的 爱问知识人...

    一般排序的方法是比较经典的,你可以去网上找,很多的.各种排序方法,一般很多程序,尤其是考试什么的,都是需要的.像经典的冒泡排序.public static void sort(int[] values ...

  10. access查询设计sol视图_选择查询-在access中如何建立一个选择查询只查询一个信?在access 爱问知识人...

    在ACCESS中创建查询 像表向导.窗体向导等其他向导一样,Access查询向导能够有效地指导用户顺利地 进行创建查询的工作,详细地解释在创建过程中需要做出的选择,并能以图形的方式显示结果. Acce ...

最新文章

  1. 配置nginx对php的支持
  2. CPA相关功耗分析(一)
  3. GitLab基本设置-新增用户
  4. [Linux] 020 RPM 包的命名原则与其依赖性
  5. 这几天微软发布的一些好玩的东西(顺祝女性程序员朋友们节日快乐!)
  6. 工作62:显示省略号
  7. 三位bcd加法计数器_两个8位BCD编号的加法| 8085微处理器
  8. 关于C++宏:AFX_EXT_CLASS
  9. c语言 数组 迷宫,迷宫问题(C语言实现)
  10. 绘制永磁同步电机定子绕组示意图——Visio制图总结【电控类】(一)
  11. 手机通达信正在连接服务器,通达信服务器全部连接超时
  12. 物联网全景动态图谱2.0|PaaS物联网平台汇总
  13. PCB Layout初学者必会知识总结(转)
  14. LinkedHashMap与HashMap 关系
  15. 钉钉网页版入口,存档
  16. mysql使用jdbc进行批量插入时把事务设为手动提交比事务自动提交速度快了10倍
  17. [译]一个健壮且可扩展的 CSS 架构所需的 8 个简单规则
  18. 三星android se干啥得,结果竟然这样!看iPhone SE与最强Android旗舰三星S7对比!
  19. Linux网络配置管理
  20. 图像分割之分水岭算法

热门文章

  1. STM32F407过程记录
  2. mac 配置mysql odbc_如何在Mac上装载ODBC驱动程序?
  3. Cookie简明小册
  4. win7下IDEA黑色主题看不到鼠标指针的修改方式
  5. idea设置主题路径
  6. 三菱modbusRTU通讯实例_PLC编程入门梯形图实例讲解
  7. python 文件操作新姿势 pathlib模块的详细使用
  8. 遗传算法详解及matlab代码实现
  9. 区块链产品经理规范与总结
  10. openssl数据加密