学习NLP需要一个比较系统的概要。所以理论上这个应该写在第一篇。

【NLP的技术概貌】

NLP里细分领域和技术实在太多,根据NLP的终极目标,大致可以分为自然语言理解(NLU)和自然语言生成(NLG)两种。NLU侧重于如何理解文本,包括文本分类、命名实体识别、指代消歧、句法分析、机器阅读理解等;NLG则侧重于理解文本后如何生成自然文本,包括自动摘要、机器翻译、问答系统、对话机器人等。两者间不存在有明显的界限,如机器阅读理解实际属于问答系统的一个子领域。

大致来说,NLP可以分为以下几个领域:

  • 【文本检索】:多用于大规模数据的检索,典型的应用有搜索引擎
  • 【机器翻译】:跨语种翻译,该领域目前已较为成熟。目前谷歌翻译已用上机翻技术
  • 【文本分类/情感分析】:本质上就是个分类问题。目前也较为成熟,难点在于多标签分类(即一个文本对应多个标签,把这些标签全部找到)以及细粒度分类(二极情感分类精度很高,即好中差三类,而五级情感分类精度仍然较低,即好、较好、中、较差、差)
  • 【信息抽取】:从不规则文本中抽取想要的信息,包括命名实体识别、关系抽取、事件抽取等。应用极广。
  • 【序列标注】:给文本中的每一个字/词打上相应的标签。是大多数NLP底层技术的核心,如分词、词性标注、关键词抽取、命名实体识别、语义角色标注等等。曾是HMM、CRF的天下,近年来逐步稳定为BiLSTM-CRF体系。
  • 【文本摘要】:从给定的文本中,聚焦到最核心的部分,自动生成摘要。
  • 【问答系统】:接受用户以自然语言表达的问题,并返回以自然语言表达的回答。常见形式为检索式抽取式生成式三种。近年来交互式也逐渐受到关注。典型应用有智能客服
  • 【对话系统】:与问答系统有许多相通之处,区别在于问答系统旨在直接给出精准回答,回答是否口语化不在主要考虑范围内;而对话系统旨在以口语化的自然语言对话的方式解决用户问题。对话系统目前分闲聊式和任务导向型。前者主要应用有siri、小冰等;后者主要应用有车载聊天机器人。(对话系统和问答系统应该是最接近NLP终极目标的领域)
  • 【知识图谱】:从规则或不规则的文本中提取结构化的信息,并以可视化的形式将实体间以何种方式联系表现出来。图谱本身不具有应用意义,建立在图谱基础上的知识检索、知识推理、知识发现才是知识图谱的研究方向
  • 【文本聚类】:一个古老的领域,但现在仍未研究透彻。从大规模文本数据中自动发现规律。核心在于如何表示文本以及如何度量文本之间的距离

所涉及的基本技术有:

  • 分词:基本算是所有NLP任务中最底层的技术。不论解决什么问题,分词永远是第一步
  • 词性标注:判断文本中的词的词性(名词、动词、形容词等等),一般作为额外特征使用
  • 句法分析:分为句法结构分析依存句法分析两种
  • 词干提取:从单词各种前缀后缀变化、时态变化等变化中还原词干,常见于英文文本处理
  • 命名实体识别:识别并抽取文本中的实体,一般采用BIO形式
  • 指代消歧:文本中的代词,如“他”“这个”等,还原成其所指实体
  • 关键词抽取:提取文本中的关键词,用以表征文本或下游应用
  • 词向量与词嵌入:把单词映射到低维空间中,并保持单词间相互关系不变。是NLP深度学习技术的基础
  • 文本生成:给定特定的文本输入,生成所需要的文本,主要应用于文本摘要、对话系统、机器翻译、问答系统等领域

分词、词干提取在新手探索NLP(一)中都有粗略的介绍。下一篇准备探索命名实体识别。

文章摘自:知乎 自然语言处理话题 https://www.zhihu.com/topic/19560026/intro

新手探索NLP(四)相关推荐

  1. 新手探索NLP(三)

    目录 NLP语言模型 词的表示方法类型 1.词的独热表示one-hot representation 简介 不足 2. 词的分布式表示distributed representation 简介 建模类 ...

  2. 新手探索NLP(六)——全文检索

    全文检索技术--Lucene的介绍 转载自https://blog.csdn.net/yerenyuan_pku/article/details/72582979 查看全文 http://www.ta ...

  3. 新手探索NLP(十五)——终章

    目录 中文语音的机器处理 汉语语言学的研究 未登录词识别 概率图模型 信息熵 互信息 联合熵 条件熵 统计语言模型 隐马尔科夫模型 Viterbi算法 最大熵模型 最大熵原理 GIS实现 条件随机场模 ...

  4. 新手探索NLP(九)——文本摘要

    转载自知乎https://zhuanlan.zhihu.com/p/67078700 文本摘要是一种从一个或多个信息源中抽取关键信息的方法,它帮助用户节省了大量时间,用户可以从摘要获取到文本的所有关键 ...

  5. 新手探索NLP(八)——序列标注

    转载自知乎https://zhuanlan.zhihu.com/p/50184092 NLP中的序列标注问题(隐马尔可夫HMM与条件随机场CRF) Introduction 序列标注问题(sequen ...

  6. 新手探索NLP(七)——情感分析

    简介 文本情感分析(sentiment analysis),又称为意见挖掘,是对带有情感色彩的主观性文本进行分析.处理.归纳和推理的过程.其中,主观情感可以是他们的判断或者评价,他们的情绪状态,或者有 ...

  7. 新手探索NLP(五)

    命名实体识别 简介 命名实体识别(NER)(也称为实体识别.实体分块和实体提取)是信息提取的一个子任务,旨在将文本中的命名实体定位并分类为预先定义的类别,如人员.组织.位置.时间表达式.数量.货币值. ...

  8. 新手探索NLP(一)

    目录 基础知识模块 1. 概念 2. 正则化表达 Data Cleaning模块 3. 去掉标点 4. 切分词功能 5. 去掉停止词 6. Stemming & Lemmatizing ste ...

  9. 新手探索NLP(十二)——文本聚类

    简介 聚类又称群分析,是数据挖掘的一种重要的思想,聚类(Cluster)分析是由若干模式(Pattern)组成的,通常,模式是一个度量(Measurement)的向量,或者是多维空间中的一个点.聚类分 ...

最新文章

  1. SAP QM 检验批的系统状态标识‘HUM‘
  2. APIO2010 特别行动队 斜率优化DP算法笔记
  3. 【linux】截断日志文件
  4. Flink的重启策略
  5. 〖Android〗存在多个Android设备时,使用Shell脚本选择一个Android设备
  6. mysql abc_MySql ABC
  7. 使用CXF实现Webservice的服务接口提供以及相关的客户端实现
  8. win11打开安全中心显示英文怎么办 windows11打开安全中心显示英文的解决方法
  9. 服务器项目访问速度,【随心秀】优化1M带宽的云服务器访问速度
  10. 图解大数据 | 大数据分析挖掘-Spark初步
  11. 时钟指针角度。【问题描述】普通时钟都有时针和分针。在任意时刻,时针和分针都有一个夹角,并且假设时针和分针都是连续移动的。现已知当前的时刻,试求出在该时刻时针和分针的夹角A(0≤A≤180)。
  12. 图片加载防闪动的CSS方法
  13. IT咨询业发展三道坎
  14. javascript 之排列组合
  15. Redis server went away
  16. UltraLAB基因测序、生物信息分析平台高性能工作站/集群最新硬件配置方案
  17. 不要自己默默加班了!争取领导支援的五大实战话术
  18. asp毕业设计——基于Delphi+udp+UDP的基于局域网的信息收发系统设计与实现(毕业论文+程序源码)——信息收发系统
  19. C语言 循环结构实现可连续使用的计算器
  20. 像程序员一样思考之一

热门文章

  1. scala学习笔记-面向对象编程之Trait
  2. linux tcp重传多会导致软中断在各个核很不均匀么?
  3. 飞康FreeStor推出OpenStack Cinder集成解决方案
  4. IFTTT 加入开源大家庭,已开源5个项目
  5. UIActivityViewController: LaunchServices: invalidationHandler called
  6. 测试start backup和ndb_restore
  7. linux挂载硬盘简书,linux|挂载硬盘及分区
  8. 如何混合编译C语言和C++
  9. DSP/BIOS中的数据类型
  10. 异步fifo的设计(FPGA)