语料库基本概念


语料库(corpus):用于存放语言数据的文件(语言数据库)。
语料库语言学已经成为语言研究的主流。基于语料库的研究不再是计算机专家的独有领域,它正在对语言研究的许多领域产生愈来愈大的影响。

语料库语言学研究的内容:
语料库的建设与编纂(最重要)
语料库的加工和管理技术
语料库的使用

语料库技术的发展

语料库类型

==按内容构成和目的划分 ==
异质(heterogeneous)语料库:最简单的语料收集方法,没有事先规定和选材原则。
异质(heterogeneous)语料库:最简单的语料收集方法,没有事先规定和选材原则。同一个领域或者同一个食材的!
系统性(systematic)语料库:充分考虑语料的动态和静态问题、代表性和平衡问题以及语料库的规模等问题。
专用(specialized)语料库:如:北美的人文科学语料库。
按语言种类划分
单语的
双语的或多语的:篇章对齐 / 句子对齐 / 结构对齐
是否标注?
生语料和熟语料

语料采集的七项原则:语料的真实性、可靠性、科学性、代表性、权威性、分布性和流通性。其中,语料的分布性还要考虑语料的科学领域分布、地域分布、时间分布和语体分布等。

平衡语料库:着重考虑语料的代表性与平衡性。

平行语料库:一种是指在同一种语言的语料上的平行,例如,“国际英语语料库”,共有20个平行的子语料库,分别来自以英语为母语或官方语言和主要语言的国家,如英国、美国、加拿大、澳大利亚、新西兰等。其平行性表现为语料选取的时间、对象、比例、文本数、文本长度等几乎是一致的。建库的目的是对不同国家的英语进行对比研究。另一种平行语料库是指在两种或多种语言之间的平行采样和加工,例如,机器翻译中的双语对齐语料库。

共时语料库 是为了对语言进行共时(同一时段)研究而建立的语料库。研究大树的横断面所见的细胞和细胞关系,即研究一个共时平面中的元素与元素的关系。

历时语料库:是为了对语言进行历时研究而建立的语料库。研究大树的纵剖面所见的每个细胞和细胞关系的演变,即研究一个历时切面中元素与元素关系的演化

典型的语料库

布朗语料库 (Brown Corpus):

LLC口语语料库:

朗文语料库 (Longman Corpus):

宾夕法尼亚大学(UPenn)树库(Tree Bank):(http://www.ldc.upenn.edu/)

他还提出一系列具体措施的政策要点。
分词标注:他/PN 还/AD 提出/VV 一/CD 系列/M 具体/JJ 措施/NN 和/CC 政策/NN 要点/NN 。/PU

UPenn树库的扩展:
(1) PropBank (Proposition Bank)其基本观点认为:树库仅提供句子的句法结构信息,对于计算机理解人类语言是不够的。因此,PropBank 的目标是对原树库中的句法节点标注上特定的论元标记,使其保持语义角色的相似性。
(2) NomBank (Nominalization Bank):NomBank 是 PropBank 的孪生项目,它和PropBank 标注的都是同一批树库,区别在于NomBank标注的是树库中名词的词义和相关的论元信息。
(3) UPenn语篇树库:建造目标是开发一个标注语篇结构信息的大规模语料库,主要标注与语篇连通方式 (discourse connectives) 相关的一致关系(coherence relation)。标注信息主要包括连通方式的论元结构、语义区分信息,以及连通方式和论元的修饰关系特征(attributionrelated features) 等。

汉语篇章树库(CDTB):


布拉格依存树库 (Prague Dependency Treebank, PDT):目前已经建成三个语料库:捷克语依存树库、捷克语-英语依存树库和阿拉伯语依存树库.

北大计算语言学研究所开发的综合性语言知识库CLKB:综合性语言知识库(CLKB)涵盖词、词组、句子、篇章各单位和词法、句法、语义各层面,从汉语向多语言辐射,从通用领域深入到专业领域。CLKB是目前国际上规模最大且获得广泛认可的汉语语言知识资源.

台湾中研院平衡语料库(Sinica Corpus)

自然语言处理(三) 语料库和语言知识库相关推荐

  1. 自然语言处理(4)——语料库和语言知识库

    NLP学习笔记(4)--语料库和语言知识库 1. 基础知识 2.语料库技术的发展 第一个阶段:早期,20世纪五十年代中期之前 二个阶段:沉寂时期,1957-20世纪八十年代初 第三个阶段:复苏与发展时 ...

  2. 第四章 语料库与语言知识库

    文章目录 语料库技术 概述* 研究内容* 语料库语言学的发展* 早期的语料库语言学 沉寂时代 复苏与发展时期 语料库的类型* 平衡语料库和平行语料库* 共时语料库和历时语料库* 汉语语料库建设中的问题 ...

  3. NLP学习二 语料库与语言知识库

    语料库 语言知识库 语料库技术 语料库就是存放语言材料的数据库 语料库语言学:研究自然语言机读文本的采集.存储.标注.检索.统计等方法的一门学问 语料库语言学的研究内容: 1. 语料库的建设和编纂 2 ...

  4. python 自然语言处理(三)获取词性

    获取词性 import jieba.posseg as psg s ='我想和女朋友一起去北京故宫博物院参观和闲逛.' print ([(x.word,x.flag) for x in psg.cut ...

  5. 《自然语言处理(哈工大 关毅 64集视频)》学习笔记:第二章 数学基础与语言学基础

    前言 关毅老师,现为哈工大计算机学院语言技术中心教授,博士生导师.通过认真学习了<自然语言处理(哈工大 关毅 64集视频)>1(来自互联网)的课程,受益良多,在此感谢关毅老师的辛勤工作!为 ...

  6. 《用Python进行自然语言处理》第8章 分析句子结构

    1. 我们如何使用形式化语法来描述无限的句子集合的结构? 2. 我们如何使用句法树来表示句子结构? 3. 语法分析器如何分析一个句子并自动构建语法树? 8.1 一些语法困境 语言数据和无限可能性 #语 ...

  7. 论文领读:人工智能三巨头的Deep learning

    「笑傲算法江湖」的论文领读专栏聚焦于深度学习领域经典和最新论文的中英文对照译文,涵盖计算机视觉.自然语言.语音识别和强化学习等专业领域,帮助初学者理解算法理论,为未来算法工程师或科研工作奠定基础.「笑 ...

  8. 自然语言处理以及对话系统知识点总结

    自然语言处理以及对话系统知识点总结 一.先谈谈 GAN 二.自然语言处理 三.对话系统

  9. 自然语言理解的机器认知形式系统(公号回复“黄培红/认知理解”下载PDF资料,欢迎赞赏转发支持)

    自然语言理解的机器认知形式系统(公号回复"黄培红/认知理解"下载PDF资料,欢迎赞赏转发支持) 原创: 黄培红 数据简化DataSimp 今天 数据简化DataSimp导读:本文是 ...

  10. 自然语言处理之知识图谱

    1. 引言 最早接触知识图谱是在一篇分析人工智能的文章,文章提出一个很有意思的观点:"在感知层面,人工智能进步很大,在更高级的认知层面,我们现在了解的仍然很少." 我对这句话的粗浅 ...

最新文章

  1. 梯度下降法 —— 经典的优化方法
  2. ajax实现简单计算器,一个简单的jQuery计算器实现了连续计算功能
  3. 2020未来科学大奖获奖名单揭晓
  4. 2013_chengdu_onsite
  5. python 战舰_简单Python战舰
  6. Powershell 最大值堆栈实现
  7. 三角形和矩形傅里叶变换_信号与系统:第三章傅立叶变换2.ppt
  8. ERROR:imshow、Mat、waitkey找不到标识符(opencv)
  9. java 对象赋值给scala_将Scala变量转换为Java对象… varargs
  10. C#:判断数组中有没有某个值的方法
  11. 精读《如何阅读一本书》(附全书思维导图)
  12. 你好!编程!你好!世界
  13. LaTeX技巧004:给文字添加下划线、波浪线等样式
  14. win7计算机里没有网络图标,Win7网络图标不见了怎么办?Win7系统找回网络图标的方法...
  15. Java Swing界面设计UI(全)
  16. Java笔试总结(选择题)
  17. 互联网与信息安全 ——云计算及其安全
  18. 小型计算机电源,身材虽小五脏俱全 精致SFX小电源推荐榜
  19. 新月剑痕十项属性内存修改器
  20. float类型为什么有6位有效数字

热门文章

  1. 《21天学通Java(第6版)》—— 1.10 练习
  2. VUE+Django项目编写
  3. JDBC:OJDBC
  4. 视频播放加密功能的演示
  5. jQuery EasyUI/TopJUI上传多个附件并可以进行删除操作
  6. 【学习笔记】尚硅谷大数据项目之Flink实时数仓---DWD和DIM
  7. Modbus 调试工具: Modbus poll与Modbus slave下载与使用(下)
  8. 十分钟读懂 黑客如何入侵Windows 操作系统
  9. 面试题大全-操作系统面试题
  10. ISO50001认证辅导,ISO50001验厂优化所有流程中的能源性能,促进更高效的能源管理