计算语言学和自然语言处理简介

一、从一个例子开始

2001年美国电影《太空奥德赛》中的一段对话:

(Screenplay 0f 2001: A Space Odyssey,Stanley Kubrick & Arthur C. Charke编 )

Dave Bownman: Open the pod bay doors, HAL.

HAL: I’m sorry Dave, I’m afraid I can’t do that.

(Dave Bownman:HAL,请你打开太空舱的分离门。

HAL:对不起, Dave,我不能这样做。)

若想HAL能通过自然语言与人类进行交流,那它就需要一下环节:

u   语音识别 ( speech recognition )

u   自然语言理解 ( natural language understanding )

u   自然语言生成 ( natural language generation )

u   语音合成 ( speech synthesis )

u   信息检索 ( information retrieval )

u   信息抽取 ( information extraction )

u   推理 ( reference )

而建立自然语言的计算机处理系统需要如下语言学知识:

u   声学、音系学和音位学的知识

u   形态学的知识

u   词汇学的知识

u   句法学的知识

u   语义学的知识

u   话语分析的知识

u   语用学的知识

u   外部世界的常识性知识

除了语言学领域,自然语言处理涉及的其他知识领域大致有:

n     计算机科学和技术:

提供语言模型、算法设计、软件工程等方法和技术;

n     数学:

提供形式化的数学模型和形式化的数学计算方法;

n     逻辑学:

提供逻辑运算和逻辑推理的理论和方法;

n     心理学:

提供人类语言行为的心理模型和认知模型;

n     统计学:

提供根据样本数据来预测统计事件的方法和技术;

n     电子工程:

提供信息论的理论基础和语言信号处理技术;

n     生物学:

“生物语言建模”,人类语言与蛋白质序列之间具有一种类推关系。

二、   计算语言学和自然语言处理的研究内容和应用目标

——研究对象、过程、方向、内容、方法、应用目标

(一)计算语言学和自然语言处理的研究内容和应用目标

1、计算语言学的研究对象涉及计算和语言,其目标是:

(1)从计算的角度去观察和认识语言的性质

用形式化的、可计算的方式表达语言的结构规律。

(2)把语言作为计算对象来研究相应的算法

用计算机可操作的程序来实现各种分析语言的过程。

2、计算语言学和自然语言处理的研究过程,包括四步:

n     建立语言的形式化模型(Linguistic formalism)

n     研究能够实现这种模型的算法 (Computational formalism)

n     设计可以在计算机上运行的应用系统

(Computer implementation)

n     通过语料对系统进行测试和评价,不断改进质量和性能

(System Evaluation)

(1)建立语言的形式化模型(Linguistic formalism)

根据一定的语言理论的观点、原则或规则,说明这种语言的各种现象,把需要解决的问题形式化,使问题本身和解决问题的方法都能严密而规整地表示出来。

多以转换生成语法以后的语法理论为基础,如:

广义短语结构语法(GPSG)   中心语驱动的短语结构语法(HPSG)

词汇功能语法(LFG)        范畴语法(CG)

功能合一语法(FUG)        蒙塔古语法(MG)等

配价语法       格语法     系统功能语法等

典型的语言形式化模型:

上下文无关语法、上下文相关语法、扩充转移网络等

(2)研究能够实现这种模型的算法 (Computational formalism)

把语言模型表示成算法,就是研究如何用确定的、有限操作步骤的程序来实现对语言研究对象的分析和处理。

u   识别语句中的各个组成成分(词、词组、短语)

u   分析这些成分之间的结构关系和意义关系等

u   把语言模型中需要的语言知识(譬如语法知识、语义知识、关于客观世界的知识等)整理和组织成供算法使用的规则或数据。

(3)设计可以在计算机上运行的应用系统 (Computer implementation)

程序设计(Programming)是对算法的实现。它使语言信息处理系统最终可以在计算机上运行。

需要解决软件工程的方法和技术问题:

数据获取、数据组织

作业流程、系统环境、各种接口

(4)通过语料对系统进行测试和评价,不断改进质量和性能 (System Evaluation)

u   用这个系统去处理真实的语言材料,

u   分析运行的过程和得到的结果,

u   根据反馈的信息不断调整原来的设计(包括语言模型和算法)

3、计算语言学和自然语言处理的研究方向

n     理论方向 :研究语言及语言处理与计算相关的问题。

n     语言工程方向

把自然语言处理作为工程化的应用系统来研究,也称语言技术(language technology)。包括语言模型的算法研究和算法的实现,即系统构建和程序设计。

应用系统:机器翻译、自然语言理解、语音识别与合成、智能信息检索、文本分类、自动文摘、文本信息抽取、网上智能搜索引擎,等等。

n     语言数据处理方向

收集实际使用状态下的大量语言事实,认识它们的性质,把它们组织成非结构化的、半结构化的或结构化的文档,并且研究整理和应用这些语言数据的方法和技术。

目的是发现、表达和应用有关自然语言的各个方面的知识,为语言模型和语言工程的研究提供支持。各种语料库、语言学专题数据库、机器词典的研究和建设都属于这个方向

4、计算语言学和自然语言处理的研究内容

1. 概论:自然语言理解、自然语言生成、计算词汇学、本体知识体系

2. 理论 / 模型:上下文无关语法、树邻接语法、逻辑语法、n元模型

3. 形式化方法:语义标记、概念描述、复杂特征集、重写规则、递归定义

4. 算法:宽度优先、深度优先、自顶向下、自底向上、确定性算法、回溯

5. 字处理:汉字编码、汉字识别、汉字内部码、汉字交换码、国标区位码

6. 词处理:汉语分词、未登录词、歧义切分字段、词型、词例、齐普夫假设

7. 句处理:歧义结构、排歧、句法树、带标记树、浅层分析、基本名词短语

8. 篇处理:文本、超文本置标语言、可扩展置标语言、标准通用置标语言

9. 应用系统:信息抽取、问答系统、文本分类、信息检索、机器学习

10. 机器翻译:基于实例的机器翻译、基于规则的机器翻译、统计机器翻译

11. 语言资源:机器词典、语料库、文本对齐、样本容量、训练集、测试集

5、计算语言学和自然语言处理的研究方法

n     基于规则的方法/理性主义的方法

n     基于统计的方法 /经验主义的方法

关于自然语言的知识:语音、词汇、词法、句法、语义、语用

譬如语义知识:从意义出发,描述语言成分之间的聚合关系与组合关系

u    聚合关系:

义类关系、同义、近义、反义、同位、上下位关系

u    组合关系:

论元结构(论元数、论旨角色、动词对论旨角色的选择限制、语义组配关系与句法结构的对应)

这两种方法的本质区别涉及到下面三个方面的问题:

n     如何认识和表示有关自然语言的各种知识?

n     如何获取有关自然语言的各种知识?

n     如何使用有关自然语言的各种知识?

(1)如何认识和表示有关自然语言的各种知识?

·规则方法:根据实际语言材料总结和归纳关于词汇、语法、语义、语用的规则,构成形式化的系统。用一定的形式语法系统来表述自然语言中大小成分之间的组合规律。是可供作是非判断的语言知识。

·统计方法:搜集大量的语言材料,建立语料库,根据语料库里的样本数据来统计和预测语言现象出现的可能性,用统计数据来显示语言成分组合的可能性。是统计意义上的语言知识。

(2)如何获取有关自然语言的各种知识?

·规则方法:通常采用内省的方式来归纳、调整、检验和改进语言规则,当然这也要在一定规模的语料支持下来做,只是对这些语料,人们关注的是它们的典型意义,而不是统计意义。

·统计方法:通过构造统计模型,用计算机对语料库中的语言现象进行统计,得到关于各种语言知识的统计规律。所谓统计规律,不仅是表示频率的数据(如字频、词频),更多的是各种统计模型:互信息、马尔科夫链、向量空间,等等。

(3)如何使用有关自然语言的各种知识?

n     规则方法:算法规定了运用规则来判断、推导,得出结论的运算过程。自20世纪70年代以来发展出很多比较成熟的算法技术,例如基于合一的线图分析方法、LR分析算法、富田胜算法,等等。

n     统计方法:把语言数据带入统计模型,通过计算来显示语言现象出现的可能性(语言成分组合的可能性)。自20世纪80年代以后发展出基于隐马尔科夫模型的自然语言处理算法、基于转换的错误驱动的自然语言知识学习方法,等等。统计方法最先在语音识别领域取得了比较好的效果,对汉语自动分词、词性标注等问题也有较好的效果。近几年国际上在机器翻译、文本分类、信息检索、信息提取、机器学习等领域,统计语言模型的方法得到了广泛的应用,取得了很大的进展。

6、自然语言信息处理的应用目标

n     用计算机模拟人类的语言行为,使人与计算机之间用自然语言进行交流

n     建立各种处理自然语言的计算机应用软件系统:

机器翻译系统     自然语言理解系统

计算机辅助教学系统  语音自动识别和合成系统

智能信息检索系统   文献自动分类系统

文字自动识别系统   自动文摘、自动校对系统

文本信息抽取和过滤  网上智能搜索引擎

MySQL与自然语言处理_zt 计算语言学 与 自然语言处理相关推荐

  1. 自然语言处理及计算语言学相关术语中英对译表

    abbreviation 缩写 [省略语] ablative 夺格(的) abrupt 突发音 accent 口音/{Phonetics}重音 accusative 受格(的) acoustic ph ...

  2. 【Ei检索】2022年计算语言学和自然语言处理国际会议(CLNLP 2022)

    2022年计算语言学和自然语言处理国际会议(CLNLP 2022)   重要信息 会议网址:www.clnlp.org 会议时间:2022年12月16-18日 召开地点:中国北京 截稿时间:2022年 ...

  3. 自然语言处理不属于计算机科学,自然语言处理是一门融语言学、计算机科学和什么于一体的科学...

    自然语言处理是一门融语言学.计算机科学.数学于一体的科学.自然语言处理主要应用于机器翻译.舆情监测.自动摘要.观点提取.文本分类.问题回答.文本语义对比.语音识别.中文OCR等方面. 本教程操作环境: ...

  4. r语言进行自然语言处理_开始进行自然语言处理

    r语言进行自然语言处理 当今,大多数应用程序仍在处理来自结构化和半结构化源的数据的世界中工作. 它们连接到SQL数据库以查询信息或显示来自JSON或XML数据源的信息. 许多应用程序仍避免从非结构化源 ...

  5. 自然语言处理及计算语言学相关术语中英对译表(A~L)

    abbreviation 缩写 [省略语] ablative 夺格(的) abrupt 突发音 accent 口音/{Phonetics}重音 accusative 受格(的) acoustic ph ...

  6. 计算机辅助翻译术语中英对照,自然语言处理及计算语言学相关术语中英对译表(A~L)...

    abbreviation 缩写 [省略语] ablative 夺格(的) abrupt 突发音 accent 口音/{Phonetics}重音 accusative 受格(的) acoustic ph ...

  7. 比较自然语言与计算机语言,计算机语言与自然语言的比较研究

    计算机语言与自然语言的比较研究 袁野 [期刊名称]<数码世界> [年(卷),期]2018(000)001 [摘要]了解计算机语言是学生走入计算机世界的基础,计算机语言作为二十世纪伟大的发明 ...

  8. python自然语言处理书籍推荐-python自然语言处理

    自然语言处理理论书籍很多,讲实际操作的不多,能讲的这么系统的更少.Python语言在做NLP方面有较明显的优势.之前国外有<Natural Language Process with Pytho ...

  9. 「PyTorch自然语言处理系列」7. 自然语言处理的进阶序列模型

    来源 |  Natural Language Processing with PyTorch 作者 | Rao,McMahan 译者 | Liangchu 校对 | gongyouliu 编辑 | a ...

最新文章

  1. SAP PM 初级系列26 - 设备功能位置的Document
  2. Spring Cloud Config-Git后端
  3. java正则表达式:查找所有{XXX}
  4. C#教程3:基本语言结构
  5. JS:2.1,流程控制(if,switch)高级
  6. noclobber属性
  7. log4j源码阅读(一)之Logger
  8. android获得一个view的高度,Android ViewTreeObserver使用总结及获得View高度的几种方法...
  9. 「镁客·请讲」吉影科技黄俊平:水下机器人市场的拓展,需要更多行业者协同并进...
  10. 【flume】flume案例集锦
  11. android studio actionbar,Android Studio环境下ActionBar的使用教程以及如何解决遇到的问题...
  12. Unity 导出obj模型
  13. sql 主键 外键
  14. WIN11如何一键返回桌面
  15. 四川企立方:拼多多标题要怎么组成
  16. kali初使用之zsh
  17. IOS —— Crash分析
  18. 无懈可击的web设计
  19. 拆卸计算机主机的步骤是,组装电脑之intel CPU散热器的安装和拆卸图文教程
  20. qt5之QComboBox用法

热门文章

  1. CSC与HPE企业服务合并后新名称公布:DXC Technology
  2. 电子信息技术专业名词中英文对照(一)
  3. python模块学习笔记
  4. 量子力学揭示时间为何向前
  5. python综合应用题、显示数据_Python综合应用题
  6. linux 安装配置java环境 jdk1.6 jdk-6u45-linux-x64.bin
  7. 数学家闯了红灯会怎样?
  8. mysql errorcode 1366_mysql插入emoji表情报 error code [1366]
  9. 关于有重根情况下微分方程根的一般形式
  10. 最好的乳胶枕头ventry T3