阮一峰老师的博客写的相当详细了,非常佩服,在这里记录一下链接

一):自动提取关键词

url: http://www.ruanyifeng.com/blog/2013/03/tf-idf.html

笔记:

分母+1目的是防止所有文档都不包含该词(未登录词)

利用tf-idf方法:

优点 是简单快速,结果比较符合实际情况。

缺点 是这种算法无法体现词的位置信息,出现位置靠前的词与出现位置靠后的词,都被视为重要性相同,这是不正确的。(一种解决方法是,对全文的第一段和每一段的第一句话,给予较大的权重。

二):找出相似文章

url: http://www.ruanyifeng.com/blog/2013/03/cosine_similarity.html

更详细的参看 吴军 《数学之美》 P127

三):自动摘要

url: http://www.ruanyifeng.com/blog/2013/03/automatic_summarization.html

本文转自jihite博客园博客,原文链接:http://www.cnblogs.com/kaituorensheng/p/3364577.html,如需转载请自行联系原作者

TF-IDF与余弦相似性的应用相关推荐

  1. scitkit-learn:计算机科学论文的TF / IDF和余弦相似度

    几个月前,我下载了数千篇计算机科学论文的元数据,这样我就可以尝试编写一个迷你推荐引擎来告诉我接下来应该读什么论文. 由于我没有任何人可以阅读每篇论文的数据,因此排除了协作过滤方法,所以我认为我可以尝试 ...

  2. TF-IDF与余弦相似性的应用(一):自动提取关键词 - 阮一峰的网络日志

    TF-IDF与余弦相似性的应用(一):自动提取关键词 - 阮一峰的网络日志 TF-IDF与余弦相似性的应用(一):自动提取关键词 作者: 阮一峰 日期: 2013年3月15日 这个标题看上去好像很复杂 ...

  3. TF-IDF与余弦相似性的应用(一):自动提取关键词

    http://www.ruanyifeng.com/blog/2013/03/tf-idf.html 作者: 阮一峰 日期: 2013年3月15日 这个标题看上去好像很复杂,其实我要谈的是一个很简单的 ...

  4. 搜索引擎:文本分类——TF/IDF算法

    原理 TFIDF的主要思想是:如果某个词或短语在一篇文章中出现的频率TF高,并且在其他文章中很少出现,则认为此词或者短语具有很好的类别区分能力,适合用来分类.TFIDF实际上是:TF * IDF,TF ...

  5. TF-IDF与余弦相似性的应用(二):找出相似文章

    FROM:http://www.ruanyifeng.com/blog/2013/03/cosine_similarity.html 作者: 阮一峰 日期: 2013年3月21日 上一次,我用TF-I ...

  6. 关键词提取算法—TF/IDF算法

    关键词提取算法一般可分为有监督学习和无监督学习两类. 有监督的关键词提取方法可以通过分类的方式进行,通过构建一个较为完善的词表,然后判断每个文档与词表中的每个词的匹配程度,以类似打标签的方式,达到关键 ...

  7. tf/idf_Neo4j:带密码的TF / IDF(和变体)

    tf/idf 几周前,我写了一篇博客文章,介绍了如何使用scikit-learn在HIMYM成绩单上运行TF / IDF,以按情节找到最重要的短语,然后我很好奇在Neo4j中很难做到. 我首先将Wik ...

  8. Neo4j:带密码的TF / IDF(和变体)

    几周前,我写了一篇博客文章,介绍了如何使用scikit-learn在HIMYM成绩单上运行TF / IDF,以按情节找到最重要的短语,然后我很好奇在Neo4j中很难做到. 我首先将Wikipedia的 ...

  9. 余弦相似度/卷积核之间的成对余弦相似性

    目录 定义: 例子: python函数计算余弦相似性 定义: 余弦距离,也称为余弦相似度,是用向量空间中两个向量之间的夹角余弦值作为衡量两个个体之间的差异大小的度量.(不难理解,余弦相似度就是基于两个 ...

  10. 基于余弦相似性的指纹匹配算法在WIFI室内定位上的应用(转)

    1.引言 "求孤的坐标-" "谁看到月明了?" "独嘉坐在哪里,我TT登陆不了!" "有人看到我的土豪金了么?" &qu ...

最新文章

  1. 正则化方法之DropBlock
  2. UVA11375火柴(递推+大数)
  3. 爬虫爬取链接中文字_使用爬虫技术爬取图片链接并下载图片
  4. 功能性农业实用技术 谋定·农业大健康-李喜贵:粤黔东西协作
  5. JAVA中的异常使用
  6. React开发(204):react代码分割之路由懒加载
  7. 搜索不包含关键词_亚马逊listing关键词优化
  8. python 最优化算法库_哈工大硕士生用?Python 实现了 11 种经典数据降维算法,源代码库已开放...
  9. NOIP模拟 color(DP)
  10. Python基础——if else与if elif else条件判断
  11. Codeforces Round #387 (Div. 2) 747E
  12. matlab洛伦兹吸引子,用Matlab求解洛伦兹方程
  13. VisualBasic程序设计第二章的学习与自测
  14. 中国金茂销售表现亮眼,资金杠杆率进一步下降
  15. nfsd linux是什么进程,如何从NFS启动Linux及原理
  16. Don‘t make users think
  17. 射频开关-RF Switch拆机
  18. iptables 窥探、扫盲
  19. 重庆的小面50强[转自经典重庆]
  20. 生活需要仪式感,欧蓝德幸福照相馆带你发现身边的幸福

热门文章

  1. spark1.1.0学习路线
  2. 文件翻译002片:Process Monitor帮助文档(Part 2)
  3. 一个浙江商人立下的22条军规(转载)
  4. django使用auth模块进行身份认证
  5. [bzoj 2456]mode
  6. YII相关知识点记录
  7. windows 安装 spark 及 pycharm 调试 TopN 实例
  8. Cisco2811基本操作
  9. 微软WSUS服务器 3.0安装配置详解
  10. 全面对比,深度解析 Ignite 与 Spark