快速了解什么是自然语言处理

摘要:自然语言处理是计算机科学领域与人工智能领域中的一个重要方向。它研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法。自然语言处理是一门融语言学、计算机科学、数学等于一体的科学。因此,这一领域的研究将涉及自然语言,即人们日常使用的语言,所以它与语言学的研究有着密切的联系,但又有重要的区别。自然语言处理并不是一般地研究自然语言,而在于研制能有效地实现自然语言通信的计算机系统,特别是其中的软件系统。因而它是计算机科学的一部分。(本文原创,分享供于学习,转载标明出处:快速了解什么是自然语言处理)

相关文章


【文本处理】自然语言处理在现实生活中运用

【文本处理】多种贝叶斯模型构建及文本分类的实现

【文本处理】快速了解什么是自然语言处理

【文本处理】领域本体构建方法概述

【文本挖掘(1)】OpenNLP:驾驭文本,分词那些事

【文本挖掘(2)】【NLP】Tika 文本预处理:抽取各种格式文件内容

【文本挖掘(3)】自己动手搭建搜索工具

1 计算机对自然语言处理的过程

1.1把需要研究是问题在语言上建立形式化模型,使其可以数学形式表示出来,这个过程称之为"形式化"

1.2把数学模型表示为算法的过程称之为"算法化"

1.3根据算法,计算机进行实现,建立各种自然语言处理系统,这个过程是"程序化"

1.4对系统进行评测和改进最终满足现实需求,这个过程是"实用化"

2 自然语言处理涉及的知识领域

语言学、计算机科学(提供模型表示、算法设计、计算机实现)、数学(数学模型)、心理学(人类言语心理模型和理论)、哲学(提供人类思维和语言的更深层次理论)、统计学(提供样本数据的预测统计技术)、电子工程(信息论基础和语言信号处理技术)、生物学(人类言语行为机制理论)。故其为多边缘的交叉学科

3 自然语言处理涉及的范围

3.1语音的自动合成与识别、机器翻译、自然语言理解、人机对话、信息检索、文本分类、自动文摘等等,总之分为四大方向:

  • 语言学方向
  • 数据处理方向
  • 人工智能和认知科学方向
  • 语言工程方向

3.2也可细分为13个方面

  • 口语输入:语音识别、信号表示、鲁棒的语音识别、语音识别中的隐马尔科夫模型方法、语言模型、说话人识别、口语理解
  • 书面语输入:文献格式识别、光学字符识别(OCR):印刷体识别/手写体识别、手写界面、手写文字分析
  • 语言分析理解:小于句子单位的处理、语法的形式化、针对基于约束的语法编写的词表、计算语义学、句子建模和剖析技术、鲁棒的剖析技术
  • 语言生成:句法生成、深层生成
  • 口语输入技术:合成语音技术、语音合成的文本解释、口语生成
  • 话语分析与对话:对话建模、话语建模口语对话系统
  • 文献自动处理:文献检索、文本解释:信息抽取、文本内容自动归纳、文本写作和编辑的计算机支持、工业和企业中使用的受限语言
  • 多语问题的计算机处理:机器翻译、人助机译、机助人译、多语言信息检索、多语言语音识别、自动语种验证
  • 多模态的计算机处理:空间和时间表示方法、文本与图像处理、口语与手势的模态结合、口语与面部信息的模态结合:面部运动和语音识别
  • 信息传输和信息存储:语音压缩、语音品质的提升
  • 自然语言处理中的数学方法:统计建模和分类的数学理论、数字信号处理技术、剖析算法的数学基础研究、神经网络、有限状态分析技术、语音和语言处理中的最优化技术和搜索技术
  • 语言资源:书面语料库、口语语料库、机器词典与词网的建设、术语编撰和术语数据库、网络数据挖掘和信息提取
  • 自然语言处理系统的评测:面向任务的文本分析评测、机器翻译系统和翻译工具的评测、大覆盖面的自然语言剖析器的评测、语音识别:评估和评测、语音合成评测、系统的可用性和界面的评测、语音通信质量的评测、文字识别系统的评测

4 自然语言处理的发展的几个特点

  • 基于句法-语义规则的理性主义方法受到质疑,随着语料库建设和语料库语言学 的崛起,大规模真实文本的处理成为自然语言处理的主要战略目标。
  • 自然语言处理中越来越多地使用机器自动学习的方法来获取语言知识。
  • 统计数学方法越来越受到重视。
  • 自然语言处理中越来越重视词汇的作用,出现了强烈的"词汇主义"的倾向。

快速了解什么是自然语言处理相关推荐

  1. python语言语块句的标记_《自然语言处理理论与实战》

    编辑推荐 1.讲解自然语言处理的理论 2.案例丰富,实战性强 3.适合自然语言处理学习的入门者 内容提要 自然语言处理是什么?谁需要学习自然语言处理?自然语言处理在哪些地方应用?相关问题一直困扰着不少 ...

  2. 借鉴人类,跨越模态 | NLP和预训练模型未来的发展之路

    [专栏:研究思路]近来,超大规模预训练模型快速发展,在自然语言处理领域引起热议.基于深度学习的自然语言 处理技术正沿着"极大数据.极大模型.极大算力"的轨道,"无所不用其 ...

  3. 大而强 VS 小而美 | 史晓东、周明等共论:大模型主导的时代,NLP 该如何演进?...

    [专栏:前沿进展]近来,超大规模预训练模型快速发展,在自然语言处理领域引起热议.基于深度学习的自然语言处理技术正沿着"极大数据.极大模型.极大算力"的轨道,"无所不用其极 ...

  4. 现代NLP中的零样本学习

    2020-07-01 11:19:35 作者:Joe Davison 编译:ronghuaiyang 导读 使用最新的NLP技术来进行零样本学习的一些进展和工作. 自然语言处理现在是一个非常令人兴奋的 ...

  5. 微软亚研院20周年独家撰文:数据智能的现在与未来

    文:微软亚洲研究院软件分析组 来源:雷锋网 摘要:今年是微软亚洲研究院(MSRA)20周年,站在这个大节点上,MSRA副院长张冬梅以及她的团队写了这篇有关数据智能的文章,对该领域的发展和未来进行梳理. ...

  6. 预见未来 | 数据智能的现在与未来

    编者按:自1998年成立以来,微软亚洲研究院一直致力于推动计算机科学领域的前沿技术发展.在建院20周年之际,我们特别邀请微软亚洲研究院不同领域的专家共同撰写"预见未来"系列文章,以 ...

  7. 全网最全Python爬虫工具使用指南

    网络爬虫就是一种按照一定的规则,自动地抓取万维网信息的程序或者脚本.今天小编特意整理了一些实用的Python爬虫小工具,希望对大家的工作学习有帮助. 通用: urllib -网络库(stdlib). ...

  8. 自己动手搭建搜索工具

    自己动手搭建搜索工具 作者 白宁超 2016年4月12日16:31:48 摘要:搜索已经作为生活中不可缺少的一部分,诸如:百度.google.还是在微信上寻找好友或者通过一段文本查找关键字.另外亚马逊 ...

  9. 贝叶斯模型构建分类器的设计与实现

    多种贝叶斯模型构建及文本分类的实现 作者:白宁超 2015年9月29日11:10:02 摘要:当前数据挖掘技术使用最为广泛的莫过于文本挖掘领域,包括领域本体构建.短文本实体抽取以及代码的语义级构件方法 ...

最新文章

  1. aes加密内容不定长_浅谈加密技术
  2. 死磕 java同步系列之ReentrantReadWriteLock源码解析
  3. 设置USB无线网卡为监听模式大学霸IT达人
  4. 报考python工程师要求_国家认证的Python技术工程师有什么能力要求?
  5. mysql5.6与mysql5.5不同
  6. 教授因被指控“奴役”博士生遭学校解雇,反手将学校告上法庭并获赔偿...
  7. spark学习-37-Spark的SortShuffleManager
  8. 智能推荐系统之数据预处理
  9. 数据挖掘十大经典算法(包括各自优缺点 / 适用数据场景)
  10. RGBA转换成RGB
  11. 服务器无线桥接后怎么上网,tplink无线路由器桥接成功不能上网该怎么办?
  12. 教你PDF怎么压缩的小一点?PDF压缩方法
  13. JUnit学习笔记6---用stub进行粗粒度测试
  14. 魔兽争霸显示比例调整的问题
  15. C++程序设计:税费计算
  16. 80后年薪多少,才能摆脱中年危机?
  17. Msfvenom的简单用法
  18. 数字通信基本原理与设备
  19. matlab小球水平抛出,如何用Matlab制作小球自由落体运动的动画
  20. 微信小程序:开发相关

热门文章

  1. 嵌入式中单任务程序典型架构
  2. java: jstl.jar和standard.jar的下载地址与使用
  3. mysql 速度检索
  4. 产品经理第七章:互联网产品团队
  5. 系统测试方案如何写?
  6. 【win PE】磁盘分区大小的重新调整 (再也不用担心C盘过小了)
  7. linux中yum源的配置和使用
  8. Linux系统的启动过程
  9. Spring的datasource配置详解
  10. 【JavaScript 学习笔记】创建对象