第一章 绪论


目录

第一章 绪论

1.1问题的提出

1.2基本概念

1.3 HLT的产生和发展

1.4 研究内容

按照应用目标划分,广义上包括:

1.5 基本问题和主要困难

1.6 基本研究方法

1.7 研究现状

绝大多数问题都没有得到彻底解决!

1.8 课程内容


1.1问题的提出

任意时间、任意地点、任意语言的自由通讯无时无刻不在改变着人们的思维方式和生活方式
1.语言是思维的载体,是人类交流思想、表达情感最自然、最直接、最方便的工具
2.人类历史上以语言文字形式记载和流传的知识占知识总量的80%以上
3.2008年1月中国互联网络信息中心(CNNIC)发布的《第21次中国互联网络发展状况统计报告》表明,中国互联网上有87.8%的网页内容是文本表示的
4.面对文本大数据,我们面临怎样的机遇和挑战?

网络信息检索市场前景广阔

1.全世界网页数量正以指数速率增长

2.中文网页检索的最高准确率不足40%

随着社会全球化时代的到来,机器翻译市场潜力巨大

如何让计算机能够自动或半自动地理解自然语言文本,懂得人的意图和心声?

如何让计算机实现海量语言文本的自动处理、挖掘和有效利用,满足不同用户的各种需求,实现个性化信息服务?

自然语言处理的诞生Natural Language Processing,NLP

1.2基本概念

语言学vs语音学

自然语言理解 vs. 自然语言处理vs. 计算语言学vs. 中文信息处理

定义1-1:语言学(linguistics)

语言学是指对语言的科学研究。

研究语言的本质、结构和发展规律的科学。

语音和文字是语言的两个基本属性。

定义1-2:语音学(phonetics)

研究人类发音特点,特别是语音发音特点,并提出各种语音描述、分类和转写方法的科学。

包括: (1)发音语音学(articulatory phonetics),研究发音器官如何产Th语音;(2)声学语音学(acousticphonetics),研究口耳之间传递语音的物理属性;(3)听觉语音学(auditory phonetics), 研究人通过耳、听觉神经和大脑对语音的知觉反应。

问题:

语言学究竟是一门独立的学科还是应视为语言学的一个分支呢?

复数的语言科学。

定义1-3:计算语言学(Computational Linguistics)

通过建立形式化的计算模型来分析、理解和Th成自然语言的学科,是人工智能和语言学的分支学科。计算语言学是典型的交叉学科,其研究常常涉及计算机科学、语言学、数学等多个学科的知识。与内容接近的学科然语言相比较,计算语言学更加侧重基础理论和方法的研究。

定义1-4:自然语言理解(Natural Language Understanding, NLU)

自然语言理解是探索人类自身语言能力和语言思维活动的本质,研究模仿人类语言认知过程的自然语言处理方法和实现技术的一门学科。它是人工智能早期研究的领域之一,是一门在语言学、计算机科学、认知科学、信息论和数学等多学科基础上形成的交叉学科。

关于“理解”的标准

如何判断计算机系统的智能?

计算机系统的表现(act)如何?反应(react)如何?相互作用(interact )如何?

与有意识的个体(人)比较如何?——图灵测试

定义1-5: 自然语言处理(Natural Language Processing, NLP)

自然语言处理是研究如何利用计算机技术对语言文本(句子、篇章或话语等)进行处理和加工的一门学科,研究内容包括对词法、句法、   语义和语用等信息的识别、分类、提取、转换和Th成等各种处理方法和实现技术。

三个不同的语系

屈折语(fusional language/ inflectional language): 用词的形态变化表示语法关系,如英语、法语等。

黏着语(agglutinative language): 词内有专门表示语法意义的附加成分,词根或词干与附加成分的结合不紧密,如日语、韩语、土耳其语等。

孤立语(analytic language)(分析语, isolatinglanguage): 形态变化少,语法关系靠词序和虚词表示,如汉语。

定义1-6:中文信息处理(Chinese Information Processing)

针对中文的自然语言处理技术。

近几年来,自然语言处理技术迅速发展成为一门相对独立的学科,倍受关注,而且该技术不断与语音技术相互渗透和结合形成新的研究分支,因此,很多人在谈到“计算语言学”、“自然语言处理”或“自然语言理解”这些术语时,往往默认为同一个概念。甚至有专著[刘颖,2002]干脆直接解释为:计算语言学也称自然语言处理或自然语言理解。

人类语言技术(Human Language Technology,HLT)

然语言理解(natural language understanding, NLU)是人工智能最重要的研究方向之一,是当今“人工智能皇冠上的明”。

计算语言学(Computational Linguistics, CL)

1960S, 形成相对独立的学科。1962 年国际计算语言学学会(ACL)成立,1965年国际计算语言学委员会(ICCL)成立,1966年“计算语言学”首次出现在美国国家科学院ALPAC报告里。

自然语言处理(Natural Language Processing, NLP)

1980S,面向计算机网络和移动通信,从系统实现和语言工程的角度开展语言信息处理方法的研究。专门针对中文的语言信息技术研究称为中文信息处理。

1.3 HLT的产生和发展

从第一台计算机产生开始到

曲折的发展历程:

1960S 中期之前:萌芽期

1960S 中期到1970S 中后期:步履维艰

1966年美国科学院发表 ALPAC报告

1970S 中后期到1980S 后期:复苏

1980S2010左右:快速发展

2010至今:繁荣时期

1.4 研究内容

按照应用目标划分,广义上包括:

  • 机器翻译 (Machine translation, MT)实现一种语言到另一种语言的自动翻译。

  • 应用:文献翻译、网页辅助浏览等。

  • 信息检索 (Information retrieval):信息检索也称情报检索,就是利用计算机系统从大量文档中找到符合用户需要的相关信息。

  • 自动文摘 (Automatic summarization / Automatic  abstracting):将原文档的主要内容或某方面的信息自动提取出
  • 来,并形成原文档的摘要或缩写。

  • 观点挖掘 (Opinion mining)

  • 应用:电子图书管理、情报获取等。

  • 问答系统 (Question-answering system):

  • 通过计算机系统对人提出的问题的理解,利用自动推理等手段,在有关知识资源中自动求解答案并做出相应的回答。问答技术有时与语音技术和多模态输入/输出技术,以及人机交互技术等相结合,构成人机对话系统 (man-computer dialogue system)。

  • 社区问答(Community Question Answering, CQA)

    百度知道:用户群体智慧

    IBM Watson 自动问答系统

  • 信息过滤(Information filtering):通过计算机系统自动识别和过滤那些满足特定条件的文档信息。

  • 信息抽取(Information extraction):从指定文档中或者海量文本中抽取出用户感兴趣的信息。

    实体关系抽取 (entity relation extraction)

    社会网络 (social network)

  • 文档分类(Document categorization):文档分类也叫文本自动分类 (Text categorization /classification) 或信息分类(Informationcategorization /classification),其目的就是利用计算机系统对大量的文档按照一定的分类标准(例如,根据主题或内容划分等)实现自动归类。

              情感分类(Sentimental classification)

              应用:图书管理、情报获取、网络内容监控等。

  • 文字编辑和自动校对(Automatic proofreading):对文字拼写、用词、甚至语法、文档格式等进行自动检查、校对和编排。

应用:排版、印刷和书籍编撰等。

  • 语言教学(Language teaching)

    文字识别(Character recognition)

语音识别 (automatic speech recognition, ASR)将输入语音信号自动转换成书面文字。

                    应用:文字录入、人机通讯、语音翻译等等。

                    困难:大量存在的同音词、近音词、集外词、口音等等。

文语转换/ 语音合成 (text-to-speech synthesis):将书面文本自动转换成对应的语音表征。

          应用:朗读系统、人机语音接口等等。

说话人识别/认同/验证 (speaker recognition/identification/ verification):对一言语样品做声学分析,依此推断(确定或验证)说话人的身份。

         应用:信息安全、防伪等等。

1.5 基本问题和主要困难

归纳起来,NLU 所面临的挑战:

普遍存在的不确定性:词法、句法、语义、语用和语音各个层面

知语言象的不预测新的词汇、新的术语、新的语义和语法无处不在

始终面临的数据不充分性有限的语言集合永远无法涵盖开放的语言现象

杂性语义知识的模糊性和错综复杂的关联性难以用常规方法有效地描述,为语义计算带来了极大的困难

机器翻中映射元的不词法表达不相同、句法结构不一致、语义概念不对等

1.6 基本研究方法

1.7 研究现状

绝大多数问题都没有得到彻底解决!

1.8 课程内容

NLP01(自然语言处理)第一章 绪论相关推荐

  1. c++语言编程,一个电灯两个开关控制,[理学]四川大学计算机学院精品课程_面向对象程序设计C++课件_游洪越_第一章绪论.ppt...

    [理学]四川大学计算机学院精品课程_面向对象程序设计C课件_游洪越_第一章绪论 主讲教师: 游洪跃 个人主页: /~youhongyue 邮件地址: youhongyao@ 教材:<C++面向对 ...

  2. 人工智能原理——第一章 绪论

    人工智能原理--第一章 绪论 文章目录 人工智能原理--第一章 绪论 1.1 人工智能的发展 人工智能的发展 – 孕育期 人工智能的发展 – 摇篮期 人工智能的发展 – 发展期(1970-1979) ...

  3. 西瓜书读书笔记整理(二)—— 第一章 绪论

    第一章 绪论 第一章 绪论 1.1 引言 1. 什么是机器学习 2. 机器学习的主要内容 3. 模型与模式 1.2 基本术语 1. 数据集 / 训练集 / 验证集 / 测试集 2. 示例 / 样本 3 ...

  4. jBPM3.12用户指南中文翻译----第一章 绪论

    这是Jboss 的jBPM3.12框架的用户指南的中文翻译.其中第一章的译文,是我在网上找到的.其他几章都是我自己做的翻译.我的翻译是中英文对照,只翻译部分我认为重要的,不翻译简单的英文,以免浪费你我 ...

  5. 《机器人学导论--Join J.Craig》第一章 绪论

    <机器人学导论–Join J.Craig>第一章 绪论 1.1 背景 1. 机器人取代人:人工成本原来越高,工业机器人的成本越来越低,且无需人工那些福利.待遇等,属于一本万利.随着工业机器 ...

  6. 人工智能领域中声源定位的研究与发展------第一章 绪论

    人工智能领域中声源定位的研究与发展------第一章 绪论 转自: https://blog.csdn.net/jojozhangju/article/details/45157309 版权声明:本文 ...

  7. 数字图像识别笔记(第一章绪论)

    title: 数字图像识别笔记(第一章绪论) categories: 数字图像识别 tags: 数字图像识别 date: 2020/9/29 23:59 mathjax: true toc: true ...

  8. 数据库系统概论-第一章绪论

    数据库系统概论-第一章绪论 1.1数据库系统概述 1.2数据模型 1.4数据库系统的组成 1.数据库 2.数据库管理系统(及其开发工具) 3.应用系统 4.数据库管理员 5.(用户) 1.4.1 数据 ...

  9. 《数据结构》 李春葆 第一章-绪论

    <数据结构> 李春葆 第一章-绪论 1 什么是数据结构 1.1 数据结构的定义 1.2 逻辑结构 1.2.1 逻辑结构的表示 1 什么是数据结构 数据元素以及数据元素之间的关系,数据元素= ...

最新文章

  1. [云炬创业学笔记]第二章决定成为创业者测试18
  2. dataframe 如何选中某列的一行_如何用 Python 在笔记本上分析 100GB 数据?
  3. argparser_Java命令行界面(第22部分):argparser
  4. MYSQL学习笔记 (二)对数据库结构的增删改查
  5. http:(1):http简介
  6. 【clickhouse】clickhouse 一些博客链接
  7. jeecg3.5的一个bug
  8. 现代化编程 -- 在 Swoole 上开发 Laravel 框架的应用
  9. 低成本、低功耗、小体积433MHz数字量无线控制器
  10. 华为路由器用Linux开发,华为路由交换设备配置综合实验(实验六合一)
  11. 佐治亚理工计算机科学录取,佐治亚理工学院计算机科学专业排名第8(2020年USNEWS美国排名)...
  12. Ant Design 编写登录和注册页面
  13. windows画图工具,两张图片叠加
  14. 关于Echarts折线图双Y轴网格的一些配置
  15. 医学图像配准实现代码(matlab篇)
  16. 全球人口突破80亿!免费分享全球人口分布数据
  17. 关于C语言define的边缘效应
  18. 【系统架构设计师】第四章 计算机网络
  19. python爬取信息案例——部分国家东京奥运奖牌
  20. 微信小程序:利用搜狗API实现听写单词小程序

热门文章

  1. 第三章 动态路由协议
  2. html 禁止百度抓取,禁止百度收录方法是什么?
  3. C语言学习之路——程序设计概述
  4. SQL语句优化(雷人代码)
  5. 如何提高自己的学习能力、效率
  6. PX4 Autopilot源码分析 - 总体架构
  7. android bitmap FileInputStream File转化
  8. 彻底搞懂基于Open3D的点云处理教程!
  9. Mac下解锁网易云音乐灰色歌曲
  10. Android拾遗——如何反编绎APK文件