关键词提取算法之RAKE

RAKE(Rapid Automatic Keyword Extraction)算法,作者Alyona Medelyan,她的GitHub上有很多关键字提取的项目。

RAKE算法的亮点在于“R” : Rapid , 快速却能取得很不错的效果。

作者的思路大致是:
1).分词。在提取英文关键词中,给定一篇英文文档,以标点符号及停用词作为分词标准;
2).共现矩阵。 构建共现矩阵;
3).特征提取。包含词频freq、度deg 以及度与频率之比 deg/freq 三个特征;
4).定义score。score = deg/freq
5).降序输出。 按score大小降序输出1/3文档词汇量的关键词。

其中,提取特征后有个特殊处理,对于相邻的关键词,如果满足同一文档和相同顺序中至少两次相邻,则进行合并,成为新的候选关键词后,score 定义为合并前的候选关键词score之和。这样操作的原因是,这些相邻候选关键词相对较少,简单对score相加,增加了它们的重要性。

引用原论文的栗子:

分词后

共现矩阵

提取特征

降序输出

从上面的思路可以看到,RAKE算法
1).算法简单而高效;
2).提取的关键词并不是单一的单词,也有可能是短语,能够提取一些较长的专业术语;

遗憾的是,在处理中文文本中,中文使用停用词来划分短语的效果远不及英文,一句话根本分不了几个关键词,几乎全部粘连在一起,因此效果不好。

原始的RAKE的GitHub地址:
https://github.com/zelandiya/RAKE-tutorial
论文链接下载:
https://www.researchgate.net/profile/Stuart_Rose/publication/227988510_Automatic_Keyword_Extraction_from_Individual_Documents/links/59edf51fa6fdccbbefd5434a/Automatic-Keyword-Extraction-from-Individual-Documents.pdf

关键词提取算法之RAKE相关推荐

  1. 短文本关键词提取算法RAKE TextRank及改进

    最近做的一个项目是短文本关键词提取(twitter, linkedin post),这里主要用到了两个算法,一个是TextRank, 一个是RAKE,总的来说,这两个算法思路上差别很大,但对于短文本的 ...

  2. KeyBert、TextRank等九种本文关键词提取算法(KPE)原理及代码实现

    关键词提取 (Keyphrase Extraction,KPE) 任务可以自动提取文档中能够概括核心内容的短语,有利于下游信息检索和 NLP 任务.当前,由于对文档进行标注需要耗费大量资源且缺乏大规模 ...

  3. 基于TextRank的关键词提取算法

    基于TextRank的关键词提取算法 前沿 TextRank是一种文本排序算法,是基于著名的网页排序算法PageRank改动而来.在介绍TextRank前,我们先简单介绍下什么是PageRank.另外 ...

  4. 关键词提取算法—TF/IDF算法

    关键词提取算法一般可分为有监督学习和无监督学习两类. 有监督的关键词提取方法可以通过分类的方式进行,通过构建一个较为完善的词表,然后判断每个文档与词表中的每个词的匹配程度,以类似打标签的方式,达到关键 ...

  5. 关键词提取算法TextRank

    很久以前,我用过TFIDF做过行业关键词提取.TFIDF仅仅从词的统计信息出发,而没有充分考虑词之间的语义信息.现在本文将介绍一种考虑了相邻词的语义关系.基于图排序的关键词提取算法TextRank. ...

  6. 广告行业中那些趣事系列60:详解超好用的无监督关键词提取算法Keybert

    导读:本文是"数据拾光者"专栏的第六十篇文章,这个系列将介绍在广告行业中自然语言处理和推荐系统实践.本篇从理论到实践介绍了超好用的无监督关键词提取算法Keybert,对于希望使用无 ...

  7. java 文本分析 关键词提取_文本关键词提取算法总结

    1.TF-IDF 昨天给大家演示简单的文本聚类,但要给每个聚类再提取一两个关键词用于表示该聚类.我们还是用TFIDF算法来做,因为这是比较简单的提取特征算法,不过这里的TF是指某词在本聚类内所有文章的 ...

  8. TextRank关键词提取算法

    参考:百度AI Studio课程_学习成就梦想,AI遇见未来_AI课程 - 百度AI Studio - 人工智能学习与实训社区 (baidu.com) 1.关键词提取算法分类 1.有监督 将关键词提取 ...

  9. 自然语言处理TF-IDF关键词提取算法

    1.关键词提取简介 关键词是指能反映文本主题或者主要内容的词语.关键词提取就是从文本里面把跟这篇文档意义最相关的一些词抽取出来,是NLP领域的一个重要的子任务.在信息检索中,准确的关键词提取可以大幅提 ...

最新文章

  1. Oracle ASM 详解 收藏
  2. C语言结构体与联合体
  3. spring boot配置mybatis和事务管理
  4. [BZOJ1026]windy数
  5. Java 身份证号码识别系统
  6. 锐龙版和linux有什么区别,华为MateBook D 14锐龙版Linux版价格为何这么便宜
  7. ccf运行错误是什么原因_正压送风机运行中叶轮裂纹产生原因是什么?
  8. 452A - Eevee 模拟字符串,挺简单的一道题
  9. 防止SQL注入的五种方法
  10. MS17010漏洞利用姿势
  11. 计算机系统时间设置打不开,电脑时间或日期不对的修改方式
  12. 如何经营好自己的朋友圈
  13. coursera和udacity_从Udacity和Coursera进行深度学习
  14. Linux系统定时任务
  15. JMeter之Ramp-up Period(in seconds)说明
  16. 写给那些常年战痘的痘友们~~~
  17. NIUSHOP wap端分类显示
  18. SQL13 从titles表获取按照title进行分组
  19. 华硕rt-n16无线打印服务器,无线打印好拍档 华硕RT-N16赠照片打印机(图)
  20. QT 软键盘实现

热门文章

  1. 《三国志幻想大陆》选神兵攻略,哪些神兵适合邓艾钟会?
  2. python调用子类函数_如何从一个子类调用函数到另一个子类
  3. 打开两个微信PC客户端
  4. 1.1 什么是数据结构
  5. idea报错:please specify commit message
  6. istore 接口文档
  7. 宽带运营商大数据和机器学习支出将突破500亿美元
  8. 动荡传染棋、易趣争夺棋
  9. 从零开始的嵌入式系统开发学习Day3(linux C)
  10. 因为计算机+qtcf.dll,nuke入门:节点的插入、复制、克隆、组织和视图面板