在信息论中常用互信息(MI,Mutual Information)来衡量两个词的相关度MI(X,Y)=log2p(x,y)/p(x)p(y)
MI越大,表示两个词之间的结合越紧密。
当X,Y关联大时,MI(X,Y)大于0;当X与Y关系弱时,MI(X,Y)等于0;当MI(X,Y)小于0时,X与Y称为“互补关系”
这个算式看起来很直观,但计算还是有些麻烦,因为计算概率值p(x),p(y)都需要在语料中进行分词,

这就涉及到词典的构成以及分词的算法。

下面介绍一个简便而直观的算法:
假设一个文章集合 {C},总文章数目为N,其中含有单词X的文章总数为Nx,含有单词Y的文章总数是Ny,含有{X+Y}的文章总数是 Nxy,那么相关性这么计算
Corr(X,Y)= Math.log10(N/Nx)*Math.log10(N/Ny)*Nxy/(Nx+Ny-Nxy)
我写了一个程序进行测试,首先准备一个词典,然后准备大量语料,为检索方便,用lucence建索引,然后查询每个词与两个词交集的个数。测试汽车,前两百名结果非常好。测试一个不常见的词,如活性炭,得到的结果如下,还蛮不错的。

主关键词x 关联词y 关联词数Ny 主关键词数Nx 总文章数N Nxy Coorr(X,y)
活性碳 不织布 16 72 1127199 9 2.316674
活性碳 回力胶 25 72 1127199 9 1.996593
活性碳 吸音棉 29 72 1127199 9 1.883334
活性碳 珍珠棉 31 72 1127199 9 1.831631
活性碳 滤袋 39 72 1127199 8 1.453371
活性碳 防尘网 59 72 1127199 9 1.32477
活性碳 云母片 26 72 1127199 6 1.26853
活性碳 压敏胶 27 72 1127199 6 1.250454
活性碳 超滤膜 19 72 1127199 4 0.92056
活性碳 海棉 119 72 1127199 9 0.82483
活性碳 反渗透 155 72 1127199 10 0.746471
活性碳 滤膜 47 72 1127199 4 0.639034
活性碳 电导仪 4 72 1127199 2 0.617857
活性碳 铜箔 100 72 1127199 6 0.614342
活性碳 糊精 52 72 1127199 4 0.606269
活性碳 铝粉 52 72 1127199 4 0.606269
活性碳 制冰机 27 72 1127199 3 0.605689
活性碳 水净化 219 72 1127199 10 0.554048
活性碳 滤芯 356 72 1127199 15 0.533304
活性碳 ro膜 14 72 1127199 2 0.489964
活性碳 工业水 165 72 1127199 7 0.489529
活性碳 二氧化钛 83 72 1127199 4 0.459238

关键词与关键词之间的相关度计算相关推荐

  1. 文档和词项之间的相关度计算汇总

    下面针对<Spark高级数据分析>中的第六章的实验 进行原理上的分析 先来个矩阵Mm⋅nM_{m·n}Mm⋅n​ word1 word2 word3 doc1 doc2 doc3 doc4 ...

  2. 搜索引擎下拉食云速捷详细_详细解析关键词与搜索引擎之间的霸屏关系

    详细解析关键词与搜索引擎之间的霸屏关系 日期:2020-08-17  发布人:tpcqzr 浏览量:22527 下拉词 操作>> 近来众多人聊到啥子是查寻引擎的霸屏,断章取义便是要害词强占 ...

  3. TF-IDF算法--关键词句和文本集中每篇文章相关度计算

    关键词句和文本集每篇文章相关度计算:假设语料库中有几万篇文章,每篇文章的长度不一,你任意输入关键词或句子,通过代码以tf-idf值为准检索出来相似度高的文章. 1.TF-IDF概述 TF-IDF是一种 ...

  4. 怎么选择关键词以及关键词分析优化

    怎么选择关键词以及关键词分析优化: 82%的用户在第一次搜索不成功时,并不更换搜索引擎,而是用更多(或长尾词)的关键词重新搜索 .90%的用户的点击会在搜索结果前3页.如果在前三页找不到所需要的搜索结 ...

  5. elasticsearch搜索分数自定义以及相关度计算相关

    elasticsearch搜索分数自定义以及相关度计算相关 es通过其score字段对搜索结果进行排序 在进行业务开发时通常其默认的分数计算是不符合预期的. 最简单的方法是通过boost字段来对每一个 ...

  6. 什么是关键词?关键词有什么用?

    什么是关键词? 关键词,就是您输入搜索框中的文字,也就是您命令搜索引擎寻找的东西. 您可以命令搜索引擎寻找任何内容,所以关键词的内容可以是:人名.网站.新闻.小说.软件.游戏.星座.工作.购物.论文等 ...

  7. oracle如何计算2个坐标的距离,百度地图两个坐标之间的距离计算

    /** * 计算两组经纬度坐标 之间的距离 * params :lat1 纬度1: lng1 经度1: lat2 纬度2: lng2 经度2: len_type (1:m or 2:km); * re ...

  8. ML之MLiR:输入两个向量,得出两个向量之间的相关度

    ML之MLiR:输入两个向量,得出两个向量之间的相关度 目录 输出结果 实现代码 输出结果 实现代码 import numpy as np from astropy.units import Ybar ...

  9. 什么是长尾关键词?长尾关键词优化方法和技巧

    做网站SEO优化想必你也已经发现,一个网站的主要流量80%是来自长尾关键词.长尾关键词最常见的是分布在网站内容页,其次是栏目title.标签页.专题页.那么什么是长尾关键词呢?其实长尾关键词就是词比较 ...

最新文章

  1. R语言-处理异常值或报错的三个示例
  2. Oracle数据库索引失效,引起GoldenGate异常
  3. kaggle删除自己的数据集
  4. C#中常用的几种读取XML文件的方法
  5. 如何设计良好的viewcontroller
  6. 重温 const 指针
  7. 图论解决复杂路口红绿灯安排,python语言实现
  8. SpringCloud 使用Docker搭建Consul节点集群
  9. numpy 常用api(四)
  10. C语言:求矩阵非对角线元素的和
  11. NGINX 自动列目录
  12. ai人工智能_AI破坏已经开始
  13. HenCoder自定义View学习整理
  14. IP地址中的保留地址
  15. 永恒之蓝漏洞复现(MS17010)
  16. Word文档中对号以及对号外加方框的输入教程
  17. bzGhost打造跨平台即时聊天软件之专栏介绍
  18. SpringSecurity多种认证方式记录之自定义
  19. Netflix和它的混世猴子
  20. 计算机应用程序是啥意思,为什么某些Mac应用程序需要“使用辅助功能控制此计算机?...

热门文章

  1. 华为开发者学院 | 卷积神经网络与图像处理,听这一节课就够了
  2. ICLR 2020将采用远程会议,首次在非洲办会可能就这样泡汤了
  3. StringUtils工具类的isBlank()方法使用说明
  4. Docker + gunicron + supervisord 部署python应用
  5. Ext4 MVC CRUD操作
  6. 传清华应届生获Facebook offer
  7. 【Vegas原创】SQL Sever系统表及系统procedure的总结
  8. 名头不小!!VMware vSphere实为VI升级版。
  9. 固定在计算机主机箱体上,联结计算机各种部件,起桥梁作用的是,2014年12月计算机应用基础模拟试题...
  10. mysql 连接串 utf8_mysql 连接url中useUnicode=truecharacterEncoding=UTF-8 的作用