NLP学习笔记(1)——绪论与概述

  • 1.基本概念
    • (1)语言学
    • (2)语音学
    • (3)计算语言学,Computational Linguistics
    • (4)自然语言理解,Natural Language Understanding
    • (5)自然语言处理,Natural Language Processing
    • (6)中文信息处理
  • 2.HLT的产生与发展
    • (1)产生
    • (2)发展
  • 3. 研究内容:
  • 4.基本问题和主要困难
    • (1)基本问题
    • (2)主要困难
    • (3)总而言之,NLU所面临的挑战
  • 5.NLP的基本研究方法
    • (1)理性主义
    • (2)经验主义
  • 6.研究现状:

1.基本概念

什么是语言学、什么是语音学?
自然语言理解、自然语言处理、计算语言学,以及中文信息处理,它们又有什么关系?

在本节中,将对自然语言处理相关的概念进行解释与辨析。


(1)语言学

  • 《现代语言学词典》中是这样注解的:
    语言学是指对语言的科学研究
    《现代汉语词典》中则这样解释:
    语言学:研究语言的本质、结构和发展规律的科学
  • 语音和文字是语言的两个基本属性
  • 语言学包括:
    (1)历时语言学(历史语言学)
    (2)共时语言学
    (3)描述语言学
    (4)对比语言学
    (5)结构语言学
    等等

(2)语音学

  • 定义:语音学是研究人类发音特点,特别是语音发音特点,并提出各种语音描述、分类和转写方法的科学
  • 语音学包括:
    (1)发音语音学:研究发音器官如何产生语音
    (2)声学语音学:研究口耳之间传递语音的物理属性
    (3)听觉语音学:研究人通过耳、听觉神经和大脑对语音的知觉反应

(3)计算语言学,Computational Linguistics

  • 计算语言学是通过建立形式化的计算模型来分析、理解和生成自然语言的学科,是人工智能和语言学的分支学科。
  • 计算语言学与内容相近的自然语言处理相比较:计算语言学更加侧重基础理论和方法的研究。

(4)自然语言理解,Natural Language Understanding

  • 自然语言理解是探索人类自身语言能力和语言思维活动的本质,研究模仿人类语言认知过程的自然语言处理方法和实现技术的一门学科。这是人工智能早期研究的领域之一,也是人工智能最重要的研究方向之一。
  • 关于概念中**“理解”**的标准:
    换言之,如何判断计算机系统的智能?
    体现在与有意识的个体(即人)相比较来说如何。
    具体表现为三个方面:
    (1)计算机系统的表现如何?(2)反应如何?(3)相互作用如何
    即:
    (1)act(2)react(3)interact
    判断或比较的方法,可以通过图灵实验来完成。

(5)自然语言处理,Natural Language Processing

  • 自然语言处理时研究如何利用计算机技术对语言文本(句子、篇章或话语等)进行处理和加工的一门学科,研究内容包括对词法、句法、语义和语用等信息的识别、分类、提取、转换、和生成等各种处理方法和实现技术。
  • 自然语言处理研究的语言,可以大体上划分为三个不同的语系:
    (1)屈折语:用词的形态变化表示愈发关系,如英语、法语等语言;
    (2)黏着语:词内有专门表示愈发意义的附加成分,词根或词干与附加成分的结合并不紧密,如日语、韩语、土耳其语等等;
    (3)孤立语:也叫分析语。形态变化少、语法关系靠词序和虚词来表示,如汉语

(6)中文信息处理

是针对中文的自然语言处理技术。


至此,我们可以回答本节开头提到的问题:“自然语言理解、自然语言处理、计算语言学,以及中文信息处理,它们又有什么关系?”
对于中文信息处理和自然语言处理的关系:中文信息处理是专门针对中文的语言信息技术研究,是自然语言处理学科下的一个分支。
对于自然语言处理(NLP)、计算语言学(CL)、自然语言理解(NLU)三者的关系,它们相互交叉又有所不同,可以统称为人类语言技术(Human Language Technology,HLT),如下图所示。有些资料中甚至将三者互相划上了等号。

2.HLT的产生与发展

(1)产生

  • 1946年,世界上第一台计算机ENIAC诞生
  • 1954年,Georgetown大学在IBM的协助下,实践了世界上第一个MT系统,实现俄译英翻译,该系统于当年一月份在纽约公开演示
  • 随后十余年中,MT研究在国际上出现热潮,一批自然语言人机接口系统和对话系统相继出现。
  • 1956年,进行人工智能夏季研讨会(达特茅斯会议)
  • 随着MT(机器翻译)研究的进展,各种自然语言处理技术应运而生,形成了这一语言学与计算机技术相结合的新兴学科。
  • 1962年美国成立“机器翻译和计算语言学协会(Association for Machine Translation and Computational Linguistics)”并组织召开了第一节国际计算语言学学术年会(ACL)
  • 1965年杂志Machine Translation改名为Machine Translation and Computational Linguistics
  • 60年代中期成立了国际计算语言学委员会(The International Committee on Computational Linguistics,ICCL)
  • 1965年组织召开了第一届国际计算语言学大会(The International Conference on Computational Linguistics,CONING)

(2)发展

其发展历程:

  • 20世纪60年代(1960s)中期之前:萌芽期
  • 20世纪60年代(1960s)中后期:步履维艰。1966年美国科学院发表ALPAC报告,术语Computational Linguistics正式出现。
  • 20世纪70年代(1970s)中后期到1980s后期:复苏
  • 20世纪80年代(1980s)后期至今:蓬勃发展

3. 研究内容:

按照应用目标来划分,NLP广义上包括:

  1. 机器翻译:一种语言到另一种的自动翻译。如谷歌、百度、有道等
  2. 信息检索:即情报检索,利用计算机系统从大量的文档中找到符合用户需求的相关信息,如谷歌、百度等搜索引擎
  3. 自动文摘:将源文档的主要内容或者某方面的信息自动提取出来,并形成原文档的摘要或缩写,可用于观点挖掘。应用如电子图书管理、情报获取
  4. 问答系统:如人机对话系统
  5. 社区问答:如百度知道(利用用户群体智慧)
  6. 信息过滤:通过计算机系统自动识别和过滤哪些满足特定条件的文档信息
  7. 信息抽取:从指定文档中抽取出用户感兴趣的信息。如实体关系抽取和社会网络
  8. 文档分类
  9. 情感分类:图书管理、网络内容监控
  10. 文字编辑和自动校对:排版、印刷和书籍编撰
  11. 语言教学
  12. 文字识别
  13. 语音识别:文字录入、人机通讯、语音翻译
  14. 文语转换/语音合成:朗读系统、人机语音接口
  15. 说话人识别/认同/验证:信息安全与防伪

由于我们将语音识别、合成和说话人识别等以语音为研究对象的技术独立出来,称为语音技术,其他以文本为处理对象的研究内容作为自然语言处理的主体。

各个研究方向之间的关系如下:

4.基本问题和主要困难

(1)基本问题

  1. 形态学问题:研究词由有意义的基本单位-词素的构成问题,即分词问题(词的长度问题)的研究

  2. 语法学问题:研究句子结构成分之间的相互关系和组成句子序列的规则,即语法。试图建立快速有效的句子结构分析方法。

  3. 语义学问题:研究如何从一个语句中的词的意义,以及这些词在该语句中句法结构中的作用来推导出该句的意义。

  4. 语用学问题:研究在不同上下文中语句的应用,以及上下文对语句理解所产生的的影响。
    狭义上看,语用学处理的是语言结构中有形式体现的那些语境;
    广义上看,语用学处理的是研究语义学未能涵盖的那些意义。.

  5. 语音学问题:研究语音特性、语音描述、分类及转写方法啊等

(2)主要困难

  1. 大量歧义现象:
    词法歧义:比如说断句存在的问题
    词性歧义:同一个词的多种词性导致的歧义
    结构歧义:语法结构上导致的歧义
    语义歧义:使用缩略语和隐喻的表达方式而产生的歧义
    语音歧义:同音词现象
    多音字及韵律等歧义:一字多音,以及韵律、声调、语气等产生的影响
  2. 大量未知语言现象:
    包括,新词、人名地名术语;旧单词的新含义;新句法和新句型

(3)总而言之,NLU所面临的挑战

  • 普遍存在的不确定性:从词法、句法、语义、语用和语音的各个层面
  • 未知语言现象的不可预测性:新的词汇、术语、语义、语法无处不在
  • 始终面临的数据不充分性:有限的语言集合永远无法涵盖开放的语言现象
  • 语言知识表达的复杂性:语义知识的模糊性和错综复杂的关联性难以用常规方法 有效地描述,为语义计算带来了极大的困难
  • 机器翻译中映射单元的不对等性

由于机器翻译中映射单元的不对等性:词法表达不相同、句法结构不一致、语义概念不对等,机器翻译需要从大量复杂多样的不确定性中寻找确定性结论

人脑理解语言,是一个复杂的思维过程,设计到常识与背景知识、语言学、心理学、逻辑学、认知科学等等各个领域

5.NLP的基本研究方法

——理性主义与经验主义的合谋
其中理性主义方法是基于规则的方法,采用知识库+推理系统的模式,依赖于符号处理系统
其中经验主义方法是基于统计的方法,采用语料库+统计模型的模式

(1)理性主义

  • 求解问题的基本思路:基于规则的分析方法建立符号处理系统
  • 符号处理系统则包括:规则库的开发(语法规则设计)、词典的标注(标注词性)、推导算法的设计(包括归约、推导、歧义消解等)三部分
  • 其NLP的组成采用知识库+推理系统的方法
  • 理论基础:Chomsky的文法理论

(2)经验主义

  • 求解问题的思路:基于大规模真实语料(语言数据)建立计算方法
  • 这个求解过程包括:大规模真实数据的收集、标注(需要有真实性、代表性、标注信息……)、建立统计模型(考虑模型的复杂性、有效性、参数训练方法等)
  • 其NLP的组成采用语料库+统计模型的方法
  • 理论基础:统计学、信息论、机器学习

目前现行的研究方法是进行“理性主义与经验主义的合谋”,使用符号智能+计算智能,建立融合方法

6.研究现状:

(1)部分问题得到了解决,可以为人们提供辅助性的帮助
(2)基础问题研究仍任重而道远
(3)社会需求日益迫切
(4)许多技术离真正实用的目标还有相当的距离,尚未建立起有效、完善的理论体系。

自然语言处理(1)——绪论与概述相关推荐

  1. 【自然语言处理】一文概述2017年深度学习NLP重大进展与趋势

    选自 tryolabs 机器之心编译 参与:路雪.黄小天.蒋思源 作者通过本文概述了 2017 年深度学习技术在 NLP 领域带来的进步,以及未来的发展趋势,并与大家分享了这一年中作者最喜欢的研究.2 ...

  2. MIT自然语言处理第一讲:简介和概述(第三部分)

    自然语言处理:背景和概述 Natural Language Processing:Background and Overview 作者:Regina Barzilay(MIT,EECS Departm ...

  3. MIT自然语言处理第一讲:简介和概述(第二部分)

    自然语言处理:背景和概述 Natural Language Processing:Background and Overview 作者:Regina Barzilay(MIT,EECS Departm ...

  4. MIT自然语言处理第一讲:简介和概述(第一部分)

    自然语言处理:背景和概述 Natural Language Processing:Background and Overview 作者:Regina Barzilay(MIT,EECS Departm ...

  5. 【深度学习NLP】初识深度学习(DL)与自然语言(NLP)

    一.自然语言(NLP)处理概述 1.什么是自然语言(NLP) 自然语言就是人类所了解到的语言,与计算机语言相比本质上两者是同义的. 2.自然语言处理(NLP)的基础概念 (1)横跨了计算机科学.语言学 ...

  6. 最全中文深度学习入门书:小白易入,课程代码PPT全有 | 复旦邱锡鹏出品

    铜灵 发自 凹非寺 量子位 出品 | 公众号 QbitAI 入门深度学习的最大阻碍是啥,课程资料太少.难度太大? 可能对于大部分中国AIer来说,语言门槛高过了一座大山.网红课虽好,但是英语听不懂啊. ...

  7. ppt 深度学习绘图_最全中文深度学习入门书:小白易入,课程代码PPT全有 | 复旦邱锡鹏出品...

    铜灵 发自 凹非寺 量子位 出品 | 公众号 QbitAI 入门深度学习的最大阻碍是啥,课程资料太少.难度太大? 可能对于大部分中国AIer来说,语言门槛高过了一座大山.网红课虽好,但是英语听不懂啊. ...

  8. 搞定这个月薪50K的AI热门领域,看这9本书就够了

    导读:根据国内某求职网站数据,2019年截止到目前,坐标魔都的自然语言处理(NLP)相关职位平均月薪约为27510元,较2018年增长66%,其中月薪30K-50K的职位占比高达45.8%. 此外,自 ...

  9. 『资源』机器学习实践中文资源合集

    转载自公众号机器之心 先决条件 机器学习的基础是数学.数学并非是一个可选可不选的理论方法,而是不可或缺的支柱.如果你是一名计算机工程师,每天使用 UML.ORM.设计模式及其他软件工程工具/技术,那么 ...

最新文章

  1. 5个案例让Python输出漂亮的表格!
  2. 跳出数据计算拯救人工智能之分布式逻辑
  3. splice方法_JavaScript数组常用方法
  4. MaxCompute Spark 资源使用优化详解
  5. js一个大盒子中有三个小盒子_寒假预习:一万有多大,数一数估一估,亲身感觉一万有多大...
  6. 近距离P2P通讯技术平台 Alljoyn
  7. Mr.J--树、二叉树、森林的转换
  8. Matlab之程序的暂停与中止
  9. 打造可降级的React服务端同构框架
  10. C# 的基本数据类型
  11. Android大话设计模式 第二章----单一职责原则 乔峰VS慕容复
  12. 淘宝卖家如何有效控制直通车展现?
  13. Mic Android 8.1 方案
  14. STM32F103 485通信开发实例
  15. 安利7个冷门好用的在线工具,每一个都足够惊艳
  16. https安全传输揭秘 1
  17. 【windows版本】 db2数据库安装与使用
  18. 短视频剪辑自学需要掌握的小技巧,初学者可收藏
  19. tp控制器进阶页面跳转重定向、
  20. AC自动机 从入门到模板

热门文章

  1. 今日头条视频地址提取 谷歌插件
  2. Python好学吗?要学多久?
  3. 内存稳定性测试软件(MemTest)
  4. 网易云音乐web/网页版无法播放问题
  5. python 点点滴滴
  6. 如何查看电脑是否已经虚拟化
  7. 微信公众平台开发(PHP)(二) 微信公众平台示例代码分析
  8. 关于 - TypeError: dict.get() takes no keyword arguments
  9. 移动物联网卡APN如何设置?
  10. 修改已经上线的小程序名称