文章目录

  • 引言
  • 一、自然语言处理基础任务
  • 二、自然语言处理应用

引言

一、自然语言处理基础任务

  自然语言处理中包含以下基础任务:

  • 分词-word segmentation
    Jieba分词
    SnowNLP
    LTP
    HanNLP

  • 词性标注-POS
      句子中的每个单词被分类为一种词性,如动词,名词等,词性标注的过程依赖当前单词以及上下文信息,词性标注问题即序列标注问题。序列标注问题可以当做分类问题,一方面,可以对于当前单词以及上下文单词(sliding window)提取特征,并用这些特征做分类;另一方面,利用序列模型考虑单词之间前后的依赖关系来做预测,常见的序列模型算法有:HMM,CRF,RNN,LSTM,Transformer
      词性标注是自然语言最基础的任务,可以认为是Solved Problem(已经解决的问题),很多时候,可以作为上游任务的特征。

  • 命名实体识别-NER
      命名实体识别类似于词性标注,命名实体识别的结果一般如下:

    张三/PER 的 家 住 在 北京/LOC

    不管是做文本摘要,还是问答系统、对话系统任务,又或者是文本分类任务,实体对任务会产生非常重要的影响。

  • 句法分析-Syntatic Analysis
      句法分析就是对一个句子的词语句法做分词,比如主谓宾。句法分析的结果是一棵树。这个在工业界用的地方不多。与之类似的依存文法分析(Dependency Parsing)用的地方比较多。在短文本分类中,如何准确的把控短文本的含义呢?针对这个场景,我们要做的是在各个维度来分析短文本

  • 语义分析-Semantic Analysis
    语义理解涉及两个问题:

    1、 如何理解一个单词的意思?(理解某个单词在某句话中的意思)
    2、如何理解一个文本的意思?(理解整句话的意思)
    主要技术有:SkipGram,CBOW,Glove,ELMo,BERT,ALBERT,XLNet,GPT-2,GPT-3,Tiny-BERT

二、自然语言处理应用

  1. 写作助手(拼写纠错)
  2. 文本分类
    情感分析:将情感分为正面反面
    情绪分析:判断一个是否处于高兴、兴奋等状态
    主题分类:比如:将新闻类型进行分类
  3. 信息检索(information retrieval)
    信息检索基础架构为:

    1. 检索Query
    2. 文本处理
    3. 在数据库中搜索
    4. 返回排序前多少的结果
  4. 问答系统
    问答系统的目的是直接提供用户的答案。
    问答系统和检索系统的区别:检索系统返回相关结果,问答系统则直接返回答案。
    问答系统需要更多语义方面的理解。
  5. 自动生成文本摘要
    自动生成文本摘要是一个生成任务。具体任务:给予一个很长的文本,对这些文本进行简化。自动生成文本摘要有两种方法:一种方法是Extractive Method,它是在原始文本中国,抽取几句话来生成摘要,对原始文本不进行改变。另一种方法是Abstractive Method,其过程为:对原始文本进行理解,再将理解到的含义转化为文本。
  6. 机器翻译
    机器翻译有三种方法:一种是Rule-based Method,另一种是Statistical Method,基于统计的语言模型,最后一种是生成式的方式。
  7. 信息抽取

如果对您有帮助,麻烦点赞关注,这真的对我很重要!!!如果需要互关,请评论或者私信!


NLP—1.自然语言处理的基础任务与应用相关推荐

  1. NLP汉语自然语言处理入门基础知识介绍

    NLP汉语自然语言处理入门基础知识介绍 自然语言处理定义: 自然语言处理是一门计算机科学.人工智能以及语言学的交叉学科.虽然语言只是人工智能的一部分(人工智能还包括计算机视觉等),但它是非常独特的一部 ...

  2. AI之NLP:自然语言处理技术简介(是什么/学什么/怎么用)、常用算法、经典案例之详细攻略(建议收藏)

    AI之NLP:自然语言处理技术简介(是什么/学什么/怎么用).常用算法.经典案例之详细攻略(建议收藏) 目录 NLP是什么? 1.NLP前置技术解析 2.python中NLP技术相关库 3.NLP案例 ...

  3. AI之NLP:自然语言处理技术简介(是什么/学什么/怎么用)、常用算法、经典案例之详细攻略(建议收藏)daiding

    AI之NLP:自然语言处理技术简介(是什么/学什么/怎么用).常用算法.经典案例之详细攻略(建议收藏) 目录 NLP是什么? 1.NLP前置技术解析 2.python中NLP技术相关库 3.NLP案例 ...

  4. nlp学习--专家系统总结-专家系统基础

    nlp学习–专家系统总结-专家系统基础 专家系统发展 : 人工智能系统的四个时代:第一个时代50年代人工智能的兴起和冷落:第二个时代60年代末到70年代初 专家系统的出现 人工智能出现了一次高潮:第三 ...

  5. NLP:自然语言处理技术之词语级别相关术语解释(如上位词/WordNet)、基于词汇层面的词法分析六大任务(分词/词性标注/词干提取-词形还原/新词发现/形态分析/拼写校正)的简介及其应用

    NLP:自然语言处理技术之词语级别相关术语解释(如上位词/WordNet).基于词汇层面的词法分析(Lexical Analysis)六大任务(分词/词性标注/词干提取-词形还原/新词发现/形态分析/ ...

  6. NLP汉语自然语言处理原理与实践

    NLP汉语自然语言处理原理与实践 作者:郑捷 ISBN号:9787121307652 出版时间:2017-01-01 出版社:电子工业出版社

  7. 自然语言处理NLP、自然语言理解NLU、自然语言生成NLG、任务家族

    自然语言处理NLP.自然语言理解NLU.自然语言生成NLG.任务家族 自然语言生成(NLG) 看图说话(image caption) 说话生图(text to image) 文本相似性(text si ...

  8. NLP:自然语言处理技术近十年发展技术更迭的简介、案例之详细攻略(持续更新)

    NLP:自然语言处理技术近十年发展技术更迭的简介.案例之详细攻略(持续更新) 目录 自然语言处理技术近十年发展技术更迭的简介.案例

  9. NLP:自然语言处理技术近十年发展技术更迭的简介、案例之详细攻略(持续更新)daiding待更新

    NLP:自然语言处理技术近十年发展技术更迭的简介.案例之详细攻略(持续更新) 目录 自然语言处理技术近十年发展技术更迭的简介.案例

  10. NLP:自然语言处理技术领域的代表性算法概述(技术迭代路线图/发展时间路线)、四大技术范式变迁概述(统计时代→大模型时代)、四个时代的技术方法论探究(少数公司可承担的训练成本原因)之详细攻略

    NLP:自然语言处理技术领域的代表性算法概述(技术迭代路线图/发展时间路线).四大技术范式变迁概述(统计时代→大模型时代).四个时代的技术方法论探究(少数公司可承担的训练成本原因)之详细攻略 目录 一 ...

最新文章

  1. gorilla/mux 的学习
  2. [Kafka与Spark集成系列二] Spark的安装及简单应用
  3. Flume实操(二)【实时读取本地文件到HDFS案例】
  4. 浅谈前后端分离思想对自由泳练习的指导意义
  5. Golang并发模式基础
  6. python求职网站_Python 求职 Top10 城市,来看看是否有你所在的城市
  7. 基于单片机的电子密码锁的实现
  8. mysql的server_id怎么设置_MySQL Server-id踩到的坑
  9. 史上最详细JavaScript视频教程
  10. centos官网下载地址
  11. 前端实现炫酷动效_7款纯CSS3实现的炫酷动画应用
  12. git format-patch命令介绍
  13. 什么是TLC颗粒?与MLC、SLC区别
  14. 「建议观看」史上超长,前端css晦涩难懂的点都在这啦
  15. 股份有限公司按规定注销库存股时,对被注销库存股的账面余额超过面值总额的部分
  16. wine 微信输入框不能正常显示(不显示)输入的文字
  17. 公司网络机房搭建,信息化目标,网络故障处理办法
  18. ChatGPT 辅助专利写作
  19. [ROC-RK3399-PC Pro] 手把手教你移植主线U-Boot(基于v2022.04-rc5版本)
  20. 定义一个结构体student,存储学生的学号、名字、性别和年龄,读入每个学生的所有信息,保存在结构体中,并输出。

热门文章

  1. 配置WindowsLiveWriter,写cnblogs博客
  2. [转]软件开发的“三重门”
  3. 把“~/niunantest.aspx”转成http://localhost:4532/test/niunantest.aspx的方法
  4. java day32【HTML标签:表单标签 、CSS】
  5. python中的ftplib模块
  6. 收藏一个好看的单选多选样式
  7. linux相关操作命令
  8. hibernate......1、2级缓存
  9. Access to the path Library\UnityAssemblies\UnityEngine.xml is denied.
  10. MS Sql当中 money类型数据使用 Decimal 传输