背景

前两天看到论文《Chinese Poetry Generation with Planning based Neural Network》中使用TextRank进行关键词提取。在阅读文章时也想到了除了TextRank之外,经常还使用TFIDF进行关键词提取。

一些算法的使用取决于业务场景和算法的特性。关键词提取是干什么的呢?关键词抽取的任务就是从一段给定的文本中自动抽取出若干有意义的词语或词组。 那么这个有意义的就会和算法的特性结合在一起了。

补充一句:这两种方案是无监督的,当然也可以使用分类的方式进行有监督的处理,本文不讨论关于有监督的关键词提取方法。

TFIDF

1.基本理论

TF-IDF(term frequency–inverse document frequency)是一种用于信息检索与数据挖掘的常用加权技术。TF是词频(Term Frequency),IDF是逆文本频率指数(Inverse Document Frequency)。也就是说:一个词语在一篇文章中出现次数越多, 同时在所有文档中出现次数越少, 越能够代表该文章。

词频 (term frequency, TF) 指的是某一个给定的词语在该文件中出现的次数,在实际的任务中也可以是一个句子,需要结合具体的任务灵活变通。这个数字通常会被归一化,一般是词频除以文章总词数(同一个词语在长文件里可能会比短文件有更高的词频,而不管该词语重要与否), 以防止它偏向长的文件。找到一篇文献,其中词频

【NLP】文本关键词提取的两种方法-TFIDF和TextRank相关推荐

  1. 中文文本关键词抽取的三种方法-python

    利用Python实现中文文本关键词抽取的三种方法 转自github 文本关键词抽取,是对文本信息进行高度凝练的一种有效手段,通过3-5个词语准确概括文本的主题,帮助读者快速理解文本信息.目前,用于文本 ...

  2. 基于Python实现中文文本关键词抽取的三种方法 课程报告+项目源码及数据

    资源下载地址:https://download.csdn.net/download/sheziqiong/85737856 资源下载地址:https://download.csdn.net/downl ...

  3. 中文文本关键词抽取的三种方法(TF-IDF、TextRank、word2vec)

    链接地址:https://github.com/AimeeLee77/keyword_extraction 1.基于TF-IDF的文本关键词抽取方法 词频(Term Frequency,TF) 指某一 ...

  4. C# 根据文本设置combobox的两种方法

    1.通过ComboBox.SelectedItem="文本" ComboBox.SelectedItem = "文本"; 2.通过ComboBox.FindSt ...

  5. NLP:基于nltk和jieba库对文本实现提取文本摘要(两种方法实现:top_n_summary和mean_scored_summary)

    NLP:基于nltk和jieba库对文本实现提取文本摘要(两种方法实现:top_n_summary和mean_scored_summary) 目录 输出结果 设计思路 核心代码 输出结果 1.测试文本 ...

  6. NLP:两种方法(自定义函数和封装函数)实现提取两人对话内容(***分隔txt文档),并各自保存为txt文档

    NLP:两种方法(自定义函数和封装函数)实现提取两人对话内容(***分隔txt文档),并各自保存为txt文档 目录 问题探究 实现代码 问题探究 实现代码 f=open("niu.txt&q ...

  7. 如何做好文本关键词提取?从三种算法说起

    在自然语言处理领域,处理海量的文本文件最关键的是要把用户最关心的问题提取出来.而无论是对于长文本还是短文本,往往可以通过几个关键词窥探整个文本的主题思想.与此同时,不管是基于文本的推荐还是基于文本的搜 ...

  8. 提取pdf文件中文字的两种方法

    如今,在我们的工作与学习中已经不是单单使用word.Excel等格式文件了,pdf格式的文件已经被广泛地运用到我们的办公室中.大家都知道pdf文件是不可直接编辑与修改的,使用起来有些不便.那么当我们需 ...

  9. 提取图片上文字的两种方法

    目前我整理出两种方法: 第一种是利用onenote 插入照片-->点击图片右键,选择"复制图片中的文本"选项-->在当前onenote的空白处选择粘贴就好了(在其他地方 ...

最新文章

  1. 【4】青龙面板系列教程之QQ通知机器人XDD-plus安装
  2. NLTK与NLP原理及基础
  3. 周报速递丨《“十四五”国家信息化规划》出台;​快手美团两大生态互联互通
  4. hive double 转decimal_一起学习Hive基础(多知识点)
  5. 一天学完spark的Scala基础语法教程八、集合(idea版本)
  6. 135. 分发糖果002(贪心算法+思路+详解)
  7. 不管什么事,只要用心做,总不会太差!
  8. TCP协议-相关面试题
  9. haddler处理队列 netty_Netty堆外内存泄漏排查,这一篇全讲清楚了
  10. HackFifteen 移除背景以提升Activity启动速度
  11. Oracle 更新多字段1
  12. 题目1544:数字序列区间最小值
  13. scala 入门初探
  14. Atitit.常用语言的常用内部api 以及API兼容性对源码级别可移植的重要性 总结
  15. Angr安装与使用之使用篇(七)
  16. 深圳雷赛智能自动控制软件使用说明(运动控制卡)
  17. smobiler中实现页面切换_Smobiler如何实现.net一键开发,ios和android跨平台运行
  18. android 左移动画_android 动画Animation之TranslateAnimation移动
  19. MAC 安装 kafka
  20. 苹果手机白屏_为什么安卓用久了会卡顿,苹果用久了会闪退?看完长知识了

热门文章

  1. ssh 使用 wangeditor3 富文本编辑器上传图片方法
  2. 一张工程师的能力图的评述
  3. 本科以下别学 IT 了,切身经历
  4. 微信小程序自定义输入仿咸鱼发布
  5. Windows7 库 文件夹图标修改(转载)
  6. 世界上没有哪一份工作是不受气的
  7. 《Distilling the Knowledge in a Neural Network》 论文阅读笔记
  8. pencv 二值图像的孔洞填充
  9. 2021年资料员-岗位技能(资料员)考试题库及资料员-岗位技能(资料员)证考试
  10. 【前端性能优化】 --- 一次总结明白