TF-IDF(termfrequency–inverse document frequency)是一种用于资讯检索与资讯探勘的常用加权技术。TF-IDF是一种统计方法,用以评估一字词对于一个文件集或一个语料库中的其中一份文件的重要程度。字词的重要性随著它在文件中出现的次数成正比增加,但同时会随著它在语料库中出现的频率成反比下降。TF-IDF加权的各种形式常被搜寻引擎应用,作为文件与用户查询之间相关程度的度量或评级。除了TF-IDF以外,因特网上的搜寻引擎还会使用基于连结分析的评级方法,以确定文件在搜寻结果中出现的顺序。

在文本挖掘中,要对文本库分词,而分词后需要对个每个分词计算它的权重,而这个权重可以使用TF-IDF计算。

TF(term frequency)就是分词出现的频率:该分词在该文档中出现的频率,算法是:(该分词在该文档出现的次数)/(该文档分词的总数),这个值越大表示这个词越重要,即权重就越大。

例如:一篇文档分词后,总共有500个分词,而分词”Hello”出现的次数是20次,则TF值是: tf =20/500=2/50=0.04

IDF(inversedocument frequency)逆向文件频率,一个文档库中,一个分词出现在的文档数越少越能和其它文档区别开来。算法是: log((总文档数/出现该分词的文档数)+0.01) ;(注加上0.01是为了防止log计算返回值为0)。

例如:一个文档库中总共有50篇文档,2篇文档中出现过“Hello”分词,则idf是:

Idf = log(50/2 + 0.01) = log(25.01)=1.39811369

TF-IDF结合计算就是 tf*idf,比如上面的“Hello”分词例子中:

TF-IDF = tf* idf = (20/500)* log(50/2 + 0.01)= 0.04*1.39811369=0.0559245476

转载于:https://www.cnblogs.com/dmlove/p/4775866.html

计算分词的Tf-idf值相关推荐

  1. 关键词提取算法—TF/IDF算法

    关键词提取算法一般可分为有监督学习和无监督学习两类. 有监督的关键词提取方法可以通过分类的方式进行,通过构建一个较为完善的词表,然后判断每个文档与词表中的每个词的匹配程度,以类似打标签的方式,达到关键 ...

  2. 搜索引擎:文本分类——TF/IDF算法

    原理 TFIDF的主要思想是:如果某个词或短语在一篇文章中出现的频率TF高,并且在其他文章中很少出现,则认为此词或者短语具有很好的类别区分能力,适合用来分类.TFIDF实际上是:TF * IDF,TF ...

  3. 文本特征抽取的向量空间模型(VSM)和TF/IDF方法

    文本特征抽取 两组小说,一组是爱情的,另一组是科幻的.我们能否用支持向量机训练一个模型,用来识别小说类型呢? 这个并不容易.因为支持向量机这类机器学习算法只能接受数学里面的向量作为输入.如果用它来做文 ...

  4. tf-idf词向量和bow_使用词袋Bow和TF IDF进行多标签分类

    tf-idf词向量和bow 1.加载数据 (1. Load the data) For this study, we are using Kaggle data for Toxic Comment C ...

  5. tf/idf_Neo4j:带密码的TF / IDF(和变体)

    tf/idf 几周前,我写了一篇博客文章,介绍了如何使用scikit-learn在HIMYM成绩单上运行TF / IDF,以按情节找到最重要的短语,然后我很好奇在Neo4j中很难做到. 我首先将Wik ...

  6. Neo4j:带密码的TF / IDF(和变体)

    几周前,我写了一篇博客文章,介绍了如何使用scikit-learn在HIMYM成绩单上运行TF / IDF,以按情节找到最重要的短语,然后我很好奇在Neo4j中很难做到. 我首先将Wikipedia的 ...

  7. scitkit-learn:计算机科学论文的TF / IDF和余弦相似度

    几个月前,我下载了数千篇计算机科学论文的元数据,这样我就可以尝试编写一个迷你推荐引擎来告诉我接下来应该读什么论文. 由于我没有任何人可以阅读每篇论文的数据,因此排除了协作过滤方法,所以我认为我可以尝试 ...

  8. 随笔_从《芳华》影评到TF/IDF算法

     前两天看好多<芳华>的影评说:为什么好人没好报?于是感叹一堆世态炎凉,人性丑陋什么的.我觉得这问题是:为什么中央空调(对谁都温暖)往往不被看好.  先说说TF/IDF算法,这是一种信息处 ...

  9. 【笔记】手敲版 TF IDF

    注1: 1.  涉及计算向向量夹角  [笔记]向量点乘(内积)和叉乘(外积.向量积):对两个向量执行点乘运算,是对这两个向量对应位一一相乘之后求和的操作,点乘的结果是一个标量:叉乘结果是一个向量,它垂 ...

  10. R语言编写自定义函数基于ggsumarystats函数计算每个分组的统计值、自定义可视化分组分面条形图,并在X轴标签下方添加分组对应的统计值(样本数N、中位数median、四分位数的间距iqr)

    R语言编写自定义函数基于ggsumarystats函数计算每个分组的统计值.自定义可视化分组分面条形图,并在X轴标签下方添加分组对应的统计值(样本数N.中位数median.四分位数的间距iqr) 目录

最新文章

  1. FPGA:下一代机器人感知处理器
  2. Sizzle 官方API翻译
  3. Guava源码分析——Immutable Collections(4)
  4. python运行出现SyntaxError: 'return' outside function的原因和解决办法
  5. 计蒜客——双重回文数
  6. SVN中,A项目如何共享B项目的内容
  7. FPS游戏自动枪械识别+压枪(以PUBG为例)
  8. 国家开放大学计算机网络技术毕业设计,精编国家开放大学毕业论文:购物网站设计...
  9. CMOS模拟集成电路笔记(第二部分)
  10. 微信发朋友圈功能测试点小结
  11. ORA-20011 ORA-29913 KUP-11024问题处理
  12. USB接口,MicroUSB接口
  13. 和平精英有了氪金系统,玩家再也不敢开挂了?网友:你到亚服看看
  14. mac怎么切换输入法(在外接键盘下)
  15. 异步电动机双闭环矢量控制SVPWM
  16. 娱乐头条-03spider
  17. 关于程序摄像头Trace Profiling的十大热门问题
  18. 虚拟机安装到局域网服务器,局域网访问电脑中VMware虚拟机
  19. 中外文核心期刊查询系统
  20. 电脑视频声音小解决办法

热门文章

  1. Python语言学习 (二)1.1
  2. php socket 超时设置
  3. GNU make manual 翻译(三)
  4. 联想y50p70换固态硬盘_换了固态硬盘电脑就变快?告诉你:固态硬盘不是万能药...
  5. php查看加载的配置文件路径,thinkphp5.0 配置文件加载路径说明
  6. Zookeeper11问
  7. CSDN Markdown帮助文档
  8. tomcat access log pattern
  9. java生产者消费者代码_在Java面试中常遇到的技术问题汇总
  10. [渝粤教育] 西南科技大学 病虫防治 在线考试复习资料