语料库 语言知识库

语料库技术
语料库就是存放语言材料的数据库
语料库语言学:研究自然语言机读文本的采集、存储、标注、检索、统计等方法的一门学问

语料库语言学的研究内容:
1. 语料库的建设和编纂
2. 语料库的加工和管理
3. 语料库的应用(包括在语言学研究和在自然语言处理中的应用)

20世纪80年代,语料库语言学的复兴的原因:
1. 基于规则的句法
2. 计算机和计算技术的迅猛发展
3. 转换生成语言学派对语料库语言学的批判和否定在经过20多年的实践检验后,被证明是错误的和片面的

20世纪80年代以来语料库语言学的复兴,在很大程度上反映了语言学界的一种较为普遍的心态,就是建立语言研究中人工数据和自然数据的平衡,实现语料统计方法和唯理分析方法的优势互补。

语料库类型:

按语种划分:单种语料库和多种语料库
按记载媒体划分:单媒体语料库和多媒体语料库
按地域划分:国家语料库和国际语料库
按语料代表性和平衡性划分:平衡语料库和平行语料库
按使用用途划分:通用语料库和专用语料库
按分布时间划分:共时语料库和历时语料库
按加工程度划分:生语料库和标注语料库

平衡语料库和平行语料库:平衡语料库着重考虑的是语料的代表性和平衡性。一个语料库具有代表性是指在该语料库上获得的分析结果可以概括成这种语言整体或其指定部分的特性。代表性和平衡性的概念不是绝对的,语料库只能近似的代表语言。平行语料一般有两种含义:在同一种语言的语料上的平行,如国际英语语料库,共有20个平行子语料库,分别来自于不同的国家。其平行性表现在预料选取的时间、对象、比例、文本数、文本长度等几乎一致。另一种理解是指对两种或者多种语言的平行采样和加工。

汉语语料库建设的问题
1. 语料库加工的规范问题。目前我国政府主管部门已经意识到制定中文信息处理所需的有关语言文字规范和标准的重要性和紧迫性。但目前为止,提出的规范没有被普遍接受和使用。且一些规范往往只重视了文本内语言标记,没有及时制定语料库的规范。
2. 产权保护问题
汉语语料库的知识产权包括两个方面:文本的知识产权、语料库的知识产权及其衍生产品。 文本的知识产权已经得到了保护,但语料库的知识产权却没有得到保护,至今在相关法律条款中有关语料库知识产权的条款都是空白。
语料库技术既是自然语言处理研究的内容和相关方法实现的基础,又需要其他相关技术的支持(如汉语自动分词和词性标注技术、双语对齐技术等)

语言知识库:
语言知识库比语料库包含更广泛的内容。语言知识库可分为两种不同的类型:一类是词典、规则库、语义概念库等。其中的语言知识表示是显性的,可采用形式化结构描述。另一类语言知识存在于语料库中,每个语言单位的出现其范畴、意义、用法都是确定的。语料库的主体是文本,即语句的集合,每个语句都是线性的非结构化的文字序列。其中包含的知识都是隐性的。语料加工的目的是将隐形的知识显性化,以便机器学习使用。

NLP学习二 语料库与语言知识库相关推荐

  1. NLP学习(二)中文分词技术

    运行平台: Windows Python版本: Python3.x IDE: PyCharm 一. 前言 这篇内容主要是讲解的中文分词,词是一个完整语义的最小单位.分词技术是词性标注.命名实体识别.关 ...

  2. NLP学习(二)—中文分词技术

    本次代码的环境: 运行平台: Windows Python版本: Python3.x IDE: PyCharm 一.    前言 这篇内容主要是讲解的中文分词,词是一个完整语义的最小单位.分词技术是词 ...

  3. NLP(二)文本生成 --VAE与GAN模型和迁移学习

    NLP(二)文本生成 --VAE与GAN模型和迁移学习 VAE与GAN模型和迁移学习 1. Auto Encoder 自编码器 1.1 结构 1.2 核心思想 1.3 损失函数 1.4 Denoisi ...

  4. 自然语言处理(4)——语料库和语言知识库

    NLP学习笔记(4)--语料库和语言知识库 1. 基础知识 2.语料库技术的发展 第一个阶段:早期,20世纪五十年代中期之前 二个阶段:沉寂时期,1957-20世纪八十年代初 第三个阶段:复苏与发展时 ...

  5. 利用计算机技术实现对文本篇章,自然语言处理NLP学习笔记一:概念与模型初探...

    前言 先来看一些demo,来一些直观的了解. 自然语言处理: 可以做中文分词,词性分析,文本摘要等,为后面的知识图谱做准备. 知识图谱: 还有2个实际应用的例子,加深对NLP的理解 九歌机器人: 微软 ...

  6. 曝!BAT大厂NLP学习进阶之法~

    "语言理解是人工智能领域皇冠上的明珠." --比尔盖茨 自然语言处理是一门综合性的学问,它远远不止机器学习算法.相比图像或语音,文本的变化更加复杂,例如从预处理来看,NLP 就要求 ...

  7. 知识图谱论文阅读(八)【转】推荐系统遇上深度学习(二十六)--知识图谱与推荐系统结合之DKN模型原理及实现

    学习的博客: 推荐系统遇上深度学习(二十六)–知识图谱与推荐系统结合之DKN模型原理及实现 知识图谱特征学习的模型分类汇总 知识图谱嵌入(KGE):方法和应用的综述 论文: Knowledge Gra ...

  8. NLP学习-Task 3: 子词模型Subword Models

    NLP学习 更新流程↓ Task 1: 简介和词向量Word Vectors Task 2: 词向量和词义Word Senses Task 3: 子词模型Subword Models Task 4: ...

  9. C#多线程学习(二) 如何操纵一个线程

    C#多线程学习(二) 如何操纵一个线程 原文链接:http://kb.cnblogs.com/page/42529/ [1] C#多线程学习(二) 如何操纵一个线程 [2] C#多线程学习(二) 如何 ...

最新文章

  1. 搜索引擎的时效性需求满足
  2. leetcode算法题--栈的压入、弹出序列
  3. 紫书动规 例题9-10 UVA - 1626 Brackets sequence 区间dp
  4. Spring陷阱:代理
  5. Spring AOP的简单示例
  6. DBA遇到问题时的30 个反应,你是哪一种?
  7. java 中括号中的语句,Java中是使用大括号括起来的语句块,用于完成一个相对独立的逻辑功能,这种语句被称作()。...
  8. CentOS7安装Redis,全网最快安装教程
  9. 通过AT指令实现ESP8266模块和TCP服务器的数据传输
  10. django中时区设置
  11. live-server的安装使用,临时服务器
  12. php 保留html,PHP substr但保留HTML標簽?
  13. Unity制作游戏自定义按键
  14. eclipse护眼颜色
  15. 英语12种记忆单词的方法
  16. 每天有8千人在逃离北上广!扎心不?
  17. [USACO 1.2.1] Milking Cows
  18. 原 C语言实现万年历程序,C语言实现万年历源码
  19. 【读书笔记】雄性衰落
  20. 索尼android sd卡上,SD卡各个文件夹功能详解 入手必看经验!!!!

热门文章

  1. java的Swing组件模拟qq登录界面
  2. 2017下半年优质文章合集:前端篇
  3. 使用C语言生成bitmap
  4. 函数COUNTIF/COUNTIFS -统计EXCEL相关单元格数量
  5. 手把手怎么把照片修复高清,p图小白也能轻松上手
  6. pythonfor语句举例_pythonfor循环语句例子
  7. 类似70度平台的软件汇总
  8. 鳞微于计科浩瀚的星河
  9. NTFS驱动存在堆溢出(CVE-2021-31956 )分析
  10. 五种内存溢出案例总结:涵盖栈深度溢出、永久代内存溢出、本地方法栈溢出、JVM栈内存溢出和堆溢出