NLP- 关键词提取 - 综述

  • 一、关键词提取有以下几种方式
  • 二、TF-IDF
  • 三、TextRank
  • 四、LDA
  • 五、word2vec

一、关键词提取有以下几种方式

二、TF-IDF

TF-IDF算法,主要是通过统计方法,评估词对文档的重要性。一个基本思想是,一个词在文档中出现的次数越多,显然这个词会相对更具代表性,但是如果这个词在很多的文档中都有出现,那么他出现次数再多也不具备文档区分能力。所以他的另一个基本思想是如果一个词在越少的文档中多次出现, 则其对文档的区分能力也就越强,而且也具有代表性。

三、TextRank

TextRank算法则可以脱离语料库的基础,仅对单篇文档进行分析就可以提取该文档的关键词。这也是TextRank算法的重要特点。TextRank算法的基本思想源于Google的PageRank算法。

四、LDA

LDA算法,是目前关键词检测技术中最流行的方法之一,每篇文档由不同的词组成的同时,同时也存在多个潜在的主题,比如体育,娱乐,新闻,政治。而每个主题也有属于它的不同的词,比如属于“体育”主题可能会有“足球,篮球,比赛”,属于“娱乐”主题可能会有“明星,电影,唱片”等等。但是一般而言,一篇文章的主要内容最有可能是集中于少数几个主题上,如果每个主题都有所涉及,显然这些主题是无法反映文章重点的。所以,LDA的目的就是在上述条件的基础之上,根据文档中的词来找到文档最可能的几个主题以及其中的词。

五、word2vec

Word2vec算法,主要研究词与词之间的关系,他将所有文本数据集中出现的全部不重复的词都转化成了向量,这种数据格式包含了这个词与其他所有词的相似度,因此我们就可以根据词之间的关系进行分类,通过分类算法得到多个类别的中心词,之后再计算每个类中词语与类别中心的相似度并排序,最后选择最接近的中心的前几个词作为关键词。

NLP- 关键词提取 - 综述相关推荐

  1. NLP - 关键词提取 - TextRank

    NLP - 关键词提取 - TextRank 一.TextRank介绍 二.PageRank介绍 三.PageRank计算过程 四.关键词提取任务 一.TextRank介绍 TextRank算法则可以 ...

  2. [转]NLP关键词提取方法总结及实现

    最近在研究关键词的提取算法,看到一篇关于关键词提取算法的总结,比较全面了,在这里分享给大家,希望能够帮助同学们~ 原文链接:https://blog.nowcoder.net/n/ac016f8256 ...

  3. KeyBert、TextRank等九种本文关键词提取算法(KPE)原理及代码实现

    关键词提取 (Keyphrase Extraction,KPE) 任务可以自动提取文档中能够概括核心内容的短语,有利于下游信息检索和 NLP 任务.当前,由于对文档进行标注需要耗费大量资源且缺乏大规模 ...

  4. NLP学习笔记 01 分词、词性标注和关键词提取

    目录 1.1 准确分词 level1 使用jieba自定义词典 + 正则表达式准确分词 1.2 准确分词 level2 1.3 词性标注 1.4 关键词提取 1.1 准确分词 level1 中文自动分 ...

  5. 自然语言处理NLP中文分词,词性标注,关键词提取和文本摘要

    NLP相关工具包的介绍 1.1 jieba "结巴"中文分词,理念是做最好的 Python 中文分词组件. 支持三种分词模式: (1)精确模式,试图将句子最精确地切开,适合文本分析 ...

  6. NLP标签/关键词-提取工具-java开发

    一.简介 旨在帮助用户自动挖掘文本标签,是特征关键词提取工具,工具中集成了TextRank.TF-IDF算法.词跨度(SPAN)算法和LDA主题模型算法. 使用方法: 二.使用方法 2.1.TextR ...

  7. NLP实战 文本关键词提取

    +是加法.行尾的\在下一行继续当前语句或表达式,即续行. 实战项目简介 文本关键词提取,顾名思义,关键词是能够表达文档中心内容的词语,常用于计算机系统标引论文内容特征.信息检索.系统汇集以供读者检阅. ...

  8. 【NLP】文本关键词提取的两种方法-TFIDF和TextRank

    背景 前两天看到论文<Chinese Poetry Generation with Planning based Neural Network>中使用TextRank进行关键词提取.在阅读 ...

  9. NLP算法-关键词提取之Jieba算法库

    关键词提取 什么叫关键词提取? 关键词提取方法分类 有监督 无监督 优缺点 Jieba 关键词提取 TF/IDF算法 TF-IDF的主要思想 如何训练关键词提取算法 demo PageRank算法 T ...

  10. NLP算法-关键词提取之Gensim算法库

    Gensim工具包 引入 Gensim简介 一些基础概念 Gensim的使用方式 1. 训练语料的预处理 2.主题向量的变换 LDA模型 demo LSA/LSI 算法 LSA/LSI算法原理 LSA ...

最新文章

  1. R语言使用trimws函数:trimws函数去除(删除、remove)字符串头尾的空格
  2. Php如何发出请求,PHP中如何发送HTTP请求?
  3. 常用的HTML标签和属性解释
  4. mysql 百度地图插件_GitHub - huizhong/grafana-baidumap-panel: Grafana 百度地图插件
  5. 栈区,堆区,全局区,文字常量区,程序代码区详解(程序中不同类型数据所在区)
  6. 在n个火柴里面拿3根出来拼接成最大三角形的周长
  7. vue element-ui登录页面源码
  8. FutureWarning: Using a non-tuple sequence for multidimensional indexing is deprecated
  9. 用于指纹验证的C#框架
  10. java框架----mybatis的使用(一)
  11. 中职计算机英语课件ppt,语文版中职英语(基础模块 上册)Unit 7《Computers》ppt课件1.ppt...
  12. JZ6-旋转数组的最小数字
  13. PHP网站实现地址URL重定向
  14. 漫画:什么是一致性哈希?
  15. ThinkPHP5校园图书馆管理系统
  16. 游戏一般用什么编程语言开发?
  17. Linux cp命令的内涵
  18. 如何用java来打印半圆_如何画半圆 - java
  19. JVM元数据空间增长分析
  20. Rabbitmq- 消费者ack机制与发布者消息确认

热门文章

  1. 苏州企业注册商标需要提前做好哪些工作?
  2. 配置linux服务器pptpd,Linux下配置pptpd
  3. Windows2000 内核级进程隐藏、侦测技术[毕业论文]
  4. BOSS创投社群:暴利项目创业,他人笑我太疯癫,我笑他人看不穿!
  5. 详解_阿里云FPGA服务器f3实例RTL开发最佳实践脚本代码
  6. ARMv7体系结构汇总
  7. 互联网行业裁员潮为什么来得这么突然?
  8. 架构设计文章读后感6
  9. 我如何转变了我的YouTube推荐供稿
  10. 民航票务管理系统-C语言--录入,查询,订票,退票,修改航班信息以及主菜单和子菜单。