本文为 http://blog.sina.com.cn/s/blog_1334cae810102wovb.html 笔记

自然语言处理常用术语

文本主要分为三种文本,自由文本、结构化文本、半结构化文本,自然语言处理一般是对自由文本进行的处理。常见的基本操作如下:

分词

通常我们处理的自由文本分为中文、英文等。词为文本最基本的单位,分词是进行自然语言处理中最基本的步骤。分词算法分为词典方法和统计方法。其中,基于词典和人工规则的方法是按照一定的策略将待分析词与词典中的词条进行匹配(正向匹配、逆向匹配、最大匹配)。统计方法是基本字符串在语料库中出现的统计频率,典型的算法有HMM\CRF等。其中CRF相比HMM有更弱的上下文无相关性假设,理论上效果更好一点。

英文以空格为分割符,因此不需要进行分词的操作(这是片面的,对于一些特殊情况,依旧需要分词的操作 ,例如 it's等,另外对于英文中复合词的情况,也需要进行一定的识别,因此在进行关键词识别的时候会运营到分词的一些技术)。中文的分词工具有很多,近年来常用的是jieba 和stanford corenlp等。

词性标注

在进行词性标注时,需先定义出词性的类别:名词、动词、形容词、连词、副词、标点符号等。词性标注是语音识别、句法分析、信息抽取技术的基础技术之一,词性标注是标注问题,可以采用最大熵、HMM或CRF等具体算法进行模型的训练。自动问答系统中,为了提高用户问题匹配后端知识库的召回率,对一些关键词进行了过滤,包括连词、副词对于全文检索系统,理论上可以通过对用户输入的查询条件进行词性过滤,但由于全文检索是基于词袋模型的机械匹配,并且采用IDF作为特征值之一,因此词性标注的效果不大。

句法分析

句法分析的目的是确定句子的句法结构,主谓宾、动宾、定中、动补等。在问答系统和信息检索领域有重要的作用。

命名实体识别

命名实体识别是定位句子中出现的人名、地名、机构名、专有名词等。命名实体属于标注问题,因此可以采用HMM\CRF等进行模型的训练。基于统计的命名实体识别需要基于分词、词性标注等技术。命名实体定义了五大类类型:设施(FAC)\地理政治实体(GPE)\位置(LOC)\人物(PER)。在实际应用中,可以根据自己的业务需求,定义实体类别,并进行模型训练。

实体关系抽取

实体关系抽取是自动识别非结构化文档中两个实体之间的关联关系,属于信息抽取领域的基础知识之一。近年来,搜索领域流行的知识图谱技术是构建实体关系。实体关系抽取有多种方式,包括规则匹配、有监督学习、无监督学习。其中有监督学习需要预先定义实体关系类别,并通常将问题建模为分类问题。有监督学习需要预先人工标注语料库。

---------------------
作者:Virginia5
来源:CSDN
原文:https://blog.csdn.net/Virginia5/article/details/68060563
版权声明:本文为博主原创文章,转载请附上博文链接!

自然语言处理基本概念相关推荐

  1. 深度学习与自然语言处理 主要概念一览

    原址 CS224d-Day 1: 要开始系统地学习 NLP 课程 cs224d,今天先来一个课程概览. 课程一共有16节,先对每一节中提到的模型,算法,工具有个总体的认识,知道都有什么,以及它们可以做 ...

  2. 《自然语言处理入门》何晗阅读笔记—第1章:自然语言处理基础概念

    第 1 章-自然语言处理基础概念 什么是自然语言处理 自然语言处理(Natural Language Processing,NLP)是一门融合了计算机科学.人工智能以及语言学 的交叉学科. 自然语言是 ...

  3. 自然语言理解的概念与发展历史

    如果计算机能够理解.处理自然语言,这将是计算机技术的一项重大突破.自然语言理解的研究在应用和理论两个方面都具有重大的意义. 首先自然语言理解的概念以及发展历史,然后从应用角度介绍机器翻译和语音识别技术 ...

  4. AI学习笔记(十五)自然语言处理基本概念

    目录 AI学习笔记之自然语言处理 自然语言处理(Natural Language Processing) 自然语言简介 自然语言处理的难点 自然语言处理的现状 基于深度学习的自然语言处理 NLP的处理 ...

  5. 自然语言处理基础概念

    seq2seq模型 seq2seq模型是由encoder,decoder两部分组成的. encoder,decoder可以由CNN,RNN,Transformer三种结构模型中的一种. 引用seq2s ...

  6. 揭开人类语言的神秘面纱:从理解到处理自然语言

    https://www.toutiao.com/a6709740042509615619/ 随着人工智能的进步和技术变得越来越复杂,我们希望现有的概念能够接受这种变化或者改变自己.同样,在自然语言的计 ...

  7. 教程 | 理解和实现自然语言处理终极指南(附Python代码)

     教程 | 理解和实现自然语言处理终极指南(附Python代码) 时间 2017-02-16 14:41:39 机器之心 原文  http://www.jiqizhixin.com/article ...

  8. 区别于传统低效标注,两种基于自然语言解释的数据增强方法

    本文内容整理自 PaperWeekly 和 biendata 在 B 站组织的直播回顾,点击文末阅读原文即可跳转至 B 站收看本次分享完整视频录像,如需嘉宾课件,请在 PaperWeekly 公众号回 ...

  9. 今晚直播 | 清华大学NLP组秦禹嘉:基于自然语言解释的数据增强

    「PW Live」是 PaperWeekly 的学术直播间,旨在帮助更多的青年学者宣传其最新科研成果.我们一直认为,单向地输出知识并不是一个最好的方式,而有效地反馈和交流可能会让知识的传播更加有意义, ...

最新文章

  1. Django视图之介绍、项目准备、URL、路由命名、reverse反解析和Postman测试
  2. linux下的连接文件——软连接和硬连接的区别
  3. 一步一步实现网站的多语言版本
  4. PPC 调用约定 r0-r31寄存器介绍
  5. C++手动实现库函数
  6. assertionerror是什么异常_php7异常与错误处理和自定义异常
  7. java方法参数传递机制
  8. WinZip Pro 9 for Mac(专业zip压缩解压工具)
  9. 【目标检测】|数据增强 Copy-Paste
  10. php doctrine 使用,php – 在Symfony中使用Doctrine创建表
  11. 微积分基础-极限,导数,反导数
  12. 财报发布后分红1.32亿美元 陌陌为何稳居陌生人社交上位圈?
  13. 彻底了解DVD:从入门到精通(二)[转]
  14. 将cookie字符串转成editthiscookie插件的json格式
  15. 【正点原子FPGA连载】第三十一章RTC实时时钟数码管显示实验 -摘自【正点原子】新起点之FPGA开发指南_V2.1
  16. 植物大战僵尸:查找植物叠加种植CALL
  17. 《Data Structures and Algorithm Analysis in C》学习与刷题笔记
  18. JZOJ5006. A
  19. 大学生闲置物品交易平台UML建模
  20. ThinkPHP中实现微信支付(jsapi支付)流程

热门文章

  1. oracle配置oracle Database Configuration Assistant失败是什么原因?
  2. JAVA 和JAVAC命令行
  3. 数据库SQL2000连接测试
  4. 跨境电子商务B2B出口新政简析
  5. 线上直播丨KDD 2021预训练Workshop,谷歌MSRA等5位顶尖研究者参与研讨
  6. 用户界面设计准则从何而来
  7. 图灵2010.01书讯——看你错过了哪一本
  8. python——图像处理3(均值偏移、改变亮度、图像修复、图像融合)
  9. 以太坊Geth的dev模式的使用过程
  10. 旗帜鲜明地反对“码而优则仕”