从建模的角度看,为了方便计算机处理,自然语言可以被定义为一组规则或符号的集合,我们组合集合中的符号来传递各种信息。自然语言处理研究表示语言能力、语言应用的模型,通过建立计算机框架来实现这样的语言模型,并且不断完善这样的语言模型,还需要根据语言模型来设计各种实用的系统,并且探讨这些实用技术的评测技术。从自然语言的角度出发,NLP基本可以分为两个部分:自然语言处理以及自然语言的生成,演化为理解和生成文本的任务。

自然语言的理解是个综合的系统工程,它又包含了很多细分学科,有代表声音的音系学,代表构词法的词态学,代表语句结构的句法学,代表理解的语义句法学和语用学。

  • 音系学:指代语言中发音的系统化组织。
  • 词态学:研究单词构成以及相互之间的关系。
  • 句法学:给定文本的哪部分是语法正确的。
  • 语义学:给定文本的含义是什么?
  • 语用学:文本的目的是什么?

自然语言生成恰恰相反,从结构化数据中以读取的方式自动生成文本。该过程主要包含三个阶段:文本规划(完成结构化数据中的基础内容规划)、语句规划(从结构化数据中组合语句来表达信息流)、实现(产生语法通顺的语句来表达文本)。

1.2、NLP的研究任务

  • 机器翻译:计算机具备将一种语言翻译成另一种语言的能力。
  • 情感分析:计算机能够判断用户评论是否积极。
  • 智能问答:计算机能够正确回答输入的问题。
  • 文摘生成:能够准确归纳、总结并产生文本摘要。
  • 文本分类:能够采集各种文章,进行主题分析,从而进行自动分类。
  • 舆论分析:能够判断目前舆论的导向。
  • 知识图谱:知识点相互连接而成的语义网络。

1.3、NLP相关知识的构成

  1. 分词(segment):词是最小的能够独立活动的有意义的语言成分,英文单词之间是以空格作为自然分界符的,而汉语是以字位基本的书写单位,词语之间没有明显的区分标记,因此,中文词语分析是中文分词的基础和关键。中文分词常用的手段是基于字典的最长串匹配,据说可以解决85%的问题,但是歧义分词很难。
  2. 词性标注(part-of-speech tagging):标注的目的是表征词的一种隐藏状态,隐藏状态构成的转移就构成了状态转移序列。
  3. 命名实体识别(NER, Named Entity Recognition):从文本中识别具有特定类别的实体(通常是名词)
  4. 句法分析(syntax parsing):往往是一种基于规则的专家系统。目的是解析句子中各个成分的依赖关系,可以解决传统词袋模型不考虑上下文的问题。
  5. 指代消解(anaphora resolution):中文中代词出现的频率很高
  6. 情感识别(emotion recognition):本质上是分类问题,通常可以基于词袋模型+分类器,或者现在流行的词向量模型+RNN。经过测试发现后者比前者准确率略有提升。
  7. 纠错(correction):具体做法有很多,可以基于N-Gram进行纠错,也可以通过字典树、有限状态机等方法进行纠错。
  8. 问答系统(QA system):往往需要语音识别、合成、自然语言理解、知识图谱等多项技术的配合才会实现得比较好。

知识结构:NLP是研究人和机器之间用自然语言进行有效通信的理解和方法。这需要很多跨学科的知识,需要语言学、统计学、最优化理论、机器学习、深度学习以及自然语言处理相关理论模型知识做基础。

句法语义分析:针对目标句子,进行各种句法分析,如分词、词性标记、命名实体识别及链接、句法分析、语义角色识别和多义词消歧等。

关键词抽取:抽取目标文本中的主要信息,比如从一条新闻中抽取关机信息。主要是了解是谁、于何时、为何、对谁、做了何事、产生了有什么结果。涉及实体识别、时间抽取、因果关系抽取等多项关键技术。

文本挖掘:主要包含了对文本的聚类、分类、信息抽取、摘要、情感分析以及对挖掘的信息和知识的可视化、交互式的呈现界面。

机器翻译:将输入的源语言文本通过自动翻译转化为另一种语言的文本。根据输入数据类型的不同,可细分位文本翻译、语音翻译、手语翻译、图形翻译等。机器翻译从最早的基于规则到二十年前的基于统计的方法,再到今天的基于深度学习(编解码)的方法,逐渐形成了一套比较严谨的方法体系。

信息检索:对大规模的文档进行索引。可简单对文档中的词汇,赋以不同的权重来建立索引,也可使用算法模型来建立更加深层的索引。查询时,首先对输入比进行分析,然后在索引里面查找匹配的候选文档,再根据一个排序机制把候选文档排序,最后输出排序得分最高的文档。

问答系统:针对某个自然语言表达的问题,由问答系统给出一个精准的答案。需要对自然语言查询语句进行语义分析,包括实体链接、关系识别,形成逻辑表达式,然后到知识库中查找可能的候选答案并通过一个排序机制找出最佳的答案。

对话系统:系统通过多回合对话,跟用户进行聊天、回答、完成某项任务。主要涉及用户意图理解、通用聊天引擎、问答引擎、对话管理等技术。此外,为了体现上下文相关,要具备多轮对话能力。同时,为了体现个性化,对话系统还需要基于用户画像做个性化回复。

Python自然语言处理实战(1):NLP基础相关推荐

  1. python自然语言处理实战 | NLP中用到的机器学习算法学习笔记

    这是对涂铭等老师撰写的<Python自然语言处理实战:核心技术与算法>中第9章NLP中用到的机器学习算法 的学习笔记. 这里写目录标题 文本分类:中文垃圾邮件分类 文本聚类实战:用K-me ...

  2. 精通python自然语言处理pdf_学习NLP《自然语言处理综论第2版》中文PDF+英文PDF+对比分析...

    对于从事自然语言处理.文本分析的专业人士来说,建议参考学习<自然语言处理综论第2版>.对于第一版做了全面的改写,增加了大量反映自然语言处理最新成就的内容,特别是增加了语音处理和统计技术方面 ...

  3. python自然语言处理实战学习——1

    python自然语言处理实战学习笔记1 自信人生两百年,会当击水三千里. 第一章 NLP基础 1.NLP的概念 NLP(natural language processing,自然语言处理)是计算机科 ...

  4. python自然语言处理实战核心技术与算法——HMM模型代码详解

    本人初学NLP,当我看着<python自然语言处理实战核心技术与算法>书上这接近200行的代码看着有点头皮发麻,于是我读了接近一天基本把每行代码的含义给读的个七七八八,考虑到可能会有人和我 ...

  5. Python自然语言处理实战

    出版社: 机械工业出版社 ISBN:9787111597674 出版时间:2018-06-01 作者:涂铭,刘祥,刘树春 Python自然语言处理实战

  6. python自然语言处理实战_Python 自然语言处理 PDF 清晰完整版

    推荐 Python自然语言处理方面的权威之作 ,快速了解一些概念及基本工作原理的必读,提供丰富英文语料库和代码,方便练习 . 名人推荐 "少有的一本书,用如此清晰的方法如此优美整洁的代码处理 ...

  7. 零基础学python全彩版实战答案-零基础学Python(全彩版)

    商品描述: 本店出售的图书均是正版二手书,有一些笔记划线,基本是六-九品新左右,基本都没有光盘.介意者请提前咨询客服.本店所有书籍,因买家导致退货退款的,发出运费参照不包邮运费模板由买家承担.如果签收 ...

  8. 《自然语言处理实战入门》 ---- 总目录

    文章大纲 前言 综论 第 一 部分 :NLP 前置知识 开发环境 基础技术 网络爬虫 机器学习必知必会开源库 深度学习基础 常用资源 第 二 部分:NLP 基础理论 序列标注与分词算法 词嵌入(分布式 ...

  9. 《自然语言处理实战入门》 ---- 第4课 :中文分词原理及相关组件简介 之 语言学与分词技术简介...

    <自然语言处理实战入门> ---- 第4课 :中文分词原理及相关组件简介 之 语言学与分词技术简介 https://edu.csdn.net/course/play/20769/25954 ...

最新文章

  1. Chrome Restful Api 测试工具 Postman-REST-Client离线安装包下载,Axure RP Extension for Chrome离线版下载...
  2. 简述Zookeeper作注册中心
  3. 办公室影响同事关系的九种行为
  4. Effective C++条款39: 避免 向下转换 继承层次
  5. Linux 文件大小 文件夹大小 磁盘大小
  6. 【DND图形库】一、简介与环境配置
  7. 最小错误率贝叶斯决策
  8. Unity 实现物体破碎效果(转)
  9. 构建嵌入式linux系统_用于构建嵌入式Linux系统的4种工具
  10. matlab uigetfile的用法,matlab中uigetfile的用法
  11. 敏捷宣言和背后的原则 (Agile Manifesto and the principles behind)
  12. EXCEL表格-利用随机函数制作抽签工具(RAND)
  13. 基于Springboot的个人健康监控管理系统
  14. 连接树莓派后斐讯k2路由cpu占用100%
  15. java.lang.UnsupportedOperationException: Required method instantiateItem was not overridden
  16. Cernet_IPv6机考
  17. 探索智慧医院落地新方案!OFweek 2019医疗物联网大会成功举办
  18. Twitter 用户推文时间线爬虫
  19. 天天向上的力量python代码解释_天天向上的力量 B
  20. POJ:1182 食物链(带权并查集)

热门文章

  1. 【沃顿商学院学习笔记】商业分析——Customer Analytics:01 描述性分析 Descriptive Analytics
  2. 仿真软件测试工程师麦克,仿真工程师面试经验 - 共61条真实仿真工程师面试经验分享 - 职业圈...
  3. nokia 1320升级到win10预览版
  4. 1. 简介(The caret package )
  5. VM虚拟机去虚拟化教程(三)修改内存品牌和序列号
  6. h5 实现公众号登录
  7. linux oracle vncserver,Linux配置vnc
  8. 树的深度 递归非递归实现
  9. 小说里的编程 【连载之十七】元宇宙里月亮弯弯
  10. 项目体系架构设计——基于Spark平台的协同过滤实时电影推荐系统项目系列博客(四)