语料库(corpus)

语料库(corpus)就是存放语言材料的仓库(语言数据库),基于语料库进行语言学研究–语料库语言学(corpus linguistics)。

语料库语言学研究的内容

  1. 语料库的建设与编纂
  2. 语料库的加工和管理技术
  3. 语料库的使用

语料库的类型

平衡语料库

  1. 平衡语料库着重考虑语料的代表性与平衡性。
  2. 语料采集的七项原则:语料的真实性、可靠性、科学性、代表性、权威性、分布性和流通性。其中,语料的分布性还要考虑语料的科学领域分布、地域分布、时间分布和语体分布等。

平行语料库

两种含义:一种是指在同一种语言的语料上的平行,例如,“国际英语语料库”,共有20个平行的子语料库,分别来自以英语为母语或官方语言和主要语言的国家,如英国、美国、加拿大、澳大利亚、新西兰等。其平行性表现为语料选取的时间、对象、比例、文本数、文本长度等几乎是一致的。建库的目的是对不同国家的英语进行对比研究。

共时语料库与历时语料库

共时语料库是为了对语言进行共时(同一时段)研究而建立的语料库。研究大树的横断面所见的细胞和细胞关系,即研究一个共时平面中的元素与元素的关系。

历时语料库是为了对语言进行历时研究而建立的语料库。研究大树的纵剖面所见的每个细胞和细胞关系的演变,即研究一个历时切面中元素与元素关系的演化。

词汇知识库

知识库是以描述性方法来存储和管理知识的机构,由知识和知识处理机构行成一个知识域

1.WordNet

开发目的:解决词典中同义信息的组织问题

2.知网(HowNet)

3.概念层次网络(HNC)

研究从自然语言空间到语言概念空间的映射:

  1. 建立语言概念空间的概念基元符号体系;
  2. 建立语言概念空间的语句基元符号体系。

什么是熟语料库?什么是生语料库?

熟语料库指在自然语言单位上添加人工的标签标注,如经过分词、词性标注、命名实体识别、依存句法标注形成的语料。

生语料库指直接收集而未经加工形成的语言资源集,如常见的微博语料,新闻语料等。

【NLP】语料库和词汇知识库相关推荐

  1. 一起来学自然语言处理----语料库和词汇资源

    语料库和词汇资源 1.自然语言工具包(NLTK) 2.获取文本语料 1.语料库 古腾堡语料库 网络和聊天文本 布朗语料库 路透社语料库 就职演说语料库 标注文本语料库 在其他语言的语料库 语料库结构 ...

  2. NLP——语料库信息提取和处理方法

    NLP--语料库信息提取和处理方法 本文以搜狗新闻语料为例,记录文本语料的收集.读取.处理等一整套的方法,主要是为了排排坑. 文章目录 NLP--语料库信息提取和处理方法 前言 一.语料下载 二.文件 ...

  3. 【收集】NLP语料库数据集+持续更新

    来源:大数据文摘 本文共4270字,建议阅读7分钟. 本文为你奉上100多个按字母顺序排列的开源自然语言处理文本数据集列表. 奉上100多个按字母顺序排列的开源自然语言处理文本数据集列表(原始未结构化 ...

  4. 70+个NLP语料库数据集

    TED演讲数据集 女性用户网购服装反馈数据集 新闻类别数据集 中华古诗数据集 中文敏感词库 人民日报文章数据集(1979-2010) 人民日报文章数据集(1949-1978) 1998人民日报标注语料 ...

  5. NLP语料库构建(corpus)

    1 文本加载 文本处理函数学习: re.sub():正则表达式替换函数,对于输入的一个字符串,利用正则表达式(的强大的字符串处理功能),去实现(相对复杂的)字符串替换处理,然后返回被替换后的字符串,实 ...

  6. 自然语言处理(4)——语料库和语言知识库

    NLP学习笔记(4)--语料库和语言知识库 1. 基础知识 2.语料库技术的发展 第一个阶段:早期,20世纪五十年代中期之前 二个阶段:沉寂时期,1957-20世纪八十年代初 第三个阶段:复苏与发展时 ...

  7. 第四章 语料库与语言知识库

    文章目录 语料库技术 概述* 研究内容* 语料库语言学的发展* 早期的语料库语言学 沉寂时代 复苏与发展时期 语料库的类型* 平衡语料库和平行语料库* 共时语料库和历时语料库* 汉语语料库建设中的问题 ...

  8. 《统计自然语言处理》读书笔记 一.基础知识及概念介绍

    最近准备学习自然语言处理相关的知识,主要参考<统计自然语言处理·宗成庆>和<Natural Language Processing with Python>,推荐大家阅读.第一 ...

  9. 基于Python的中英文分词基础:正则表达式和jieba分词器

    基于Python的中英文分词基础:正则表达式和jieba分词器 前言介绍 英文字符串处理 Python中的str 正则表达式 Python中的正则表达式模块 re 小练习 字符串中出现频次最多的字母 ...

最新文章

  1. rust熔炉怎么带走_Rust游戏中12个实用小技巧,包含无伤下坠、直梯爬楼
  2. 计算机书籍-机器学习导论(原书第2版)
  3. 我为什么要做游戏化教养项目
  4. 详解ScheduledExecutorService的周期性执行方法
  5. 指派问题(匈牙利算法)
  6. 抛弃NVelocity,来玩玩Razor
  7. 解决Execution failed for task ':app:clean'. Unable to delete directory问题
  8. 【kibana】状态异常 Status: Red Unable to connect to Elasticsearch at http://127.0.0.1:9200.
  9. sklearn搭建线性模型的总结
  10. [Java] 蓝桥杯ALGO-125 算法训练 王、后传说
  11. [转载] [转载] numpy功能快速查找
  12. java stream, LIST ,ArrayList常用操作
  13. mysql临时表多线程时能用吗_学会使用临时表优化,切记不要乱用临时表(记录一)...
  14. Origin作图点太密集处理方法
  15. sketch ps 快捷键
  16. walking与Matlab入门教程-介绍示例模型
  17. matlab 符号 syms,matlab符号表达式求解:syms x y; m=x+y+1; x=[1 2 3]; y=[4 5 6]; 请问怎么求...
  18. 【opencv学习笔记】2用摄像头识别指定颜色
  19. 织梦教程:ms在channel标签中调用typeid无效解决办法
  20. 人脸识别之人脸验证(一)--Deepface

热门文章

  1. 如何科学评估疫情对业务的影响?
  2. 图形验证码空白如何处理
  3. PHP全栈学习笔记7
  4. 机器人聊天软件c#_聊天机器人_c#应用
  5. 如何从购物数据中挖掘出啤酒与尿布的关联关系?
  6. 0.5mm间距BGA芯片的PCB设计
  7. 论文阅读|用于不同问题的MADDPG算法框架系列论文汇总
  8. 夺命十三枪枪谱完整版
  9. 百度UEditor视频相关bug汇总和解决方案
  10. 最高奖励68万!多邻国英语测试设立研究基金