关键词与关键词之间的相关度计算
MI越大,表示两个词之间的结合越紧密。
当X,Y关联大时,MI(X,Y)大于0;当X与Y关系弱时,MI(X,Y)等于0;当MI(X,Y)小于0时,X与Y称为“互补关系”
这就涉及到词典的构成以及分词的算法。
下面介绍一个简便而直观的算法:
假设一个文章集合 {C},总文章数目为N,其中含有单词X的文章总数为Nx,含有单词Y的文章总数是Ny,含有{X+Y}的文章总数是 Nxy,那么相关性这么计算
Corr(X,Y)= Math.log10(N/Nx)*Math.log10(N/Ny)*Nxy/(Nx+Ny-Nxy)
我写了一个程序进行测试,首先准备一个词典,然后准备大量语料,为检索方便,用lucence建索引,然后查询每个词与两个词交集的个数。测试汽车,前两百名结果非常好。测试一个不常见的词,如活性炭,得到的结果如下,还蛮不错的。
主关键词x | 关联词y | 关联词数Ny | 主关键词数Nx | 总文章数N | Nxy | Coorr(X,y) |
活性碳 | 不织布 | 16 | 72 | 1127199 | 9 | 2.316674 |
活性碳 | 回力胶 | 25 | 72 | 1127199 | 9 | 1.996593 |
活性碳 | 吸音棉 | 29 | 72 | 1127199 | 9 | 1.883334 |
活性碳 | 珍珠棉 | 31 | 72 | 1127199 | 9 | 1.831631 |
活性碳 | 滤袋 | 39 | 72 | 1127199 | 8 | 1.453371 |
活性碳 | 防尘网 | 59 | 72 | 1127199 | 9 | 1.32477 |
活性碳 | 云母片 | 26 | 72 | 1127199 | 6 | 1.26853 |
活性碳 | 压敏胶 | 27 | 72 | 1127199 | 6 | 1.250454 |
活性碳 | 超滤膜 | 19 | 72 | 1127199 | 4 | 0.92056 |
活性碳 | 海棉 | 119 | 72 | 1127199 | 9 | 0.82483 |
活性碳 | 反渗透 | 155 | 72 | 1127199 | 10 | 0.746471 |
活性碳 | 滤膜 | 47 | 72 | 1127199 | 4 | 0.639034 |
活性碳 | 电导仪 | 4 | 72 | 1127199 | 2 | 0.617857 |
活性碳 | 铜箔 | 100 | 72 | 1127199 | 6 | 0.614342 |
活性碳 | 糊精 | 52 | 72 | 1127199 | 4 | 0.606269 |
活性碳 | 铝粉 | 52 | 72 | 1127199 | 4 | 0.606269 |
活性碳 | 制冰机 | 27 | 72 | 1127199 | 3 | 0.605689 |
活性碳 | 水净化 | 219 | 72 | 1127199 | 10 | 0.554048 |
活性碳 | 滤芯 | 356 | 72 | 1127199 | 15 | 0.533304 |
活性碳 | ro膜 | 14 | 72 | 1127199 | 2 | 0.489964 |
活性碳 | 工业水 | 165 | 72 | 1127199 | 7 | 0.489529 |
活性碳 | 二氧化钛 | 83 | 72 | 1127199 | 4 | 0.459238 |
关键词与关键词之间的相关度计算相关推荐
- 文档和词项之间的相关度计算汇总
下面针对<Spark高级数据分析>中的第六章的实验 进行原理上的分析 先来个矩阵Mm⋅nM_{m·n}Mm⋅n word1 word2 word3 doc1 doc2 doc3 doc4 ...
- 搜索引擎下拉食云速捷详细_详细解析关键词与搜索引擎之间的霸屏关系
详细解析关键词与搜索引擎之间的霸屏关系 日期:2020-08-17 发布人:tpcqzr 浏览量:22527 下拉词 操作>> 近来众多人聊到啥子是查寻引擎的霸屏,断章取义便是要害词强占 ...
- TF-IDF算法--关键词句和文本集中每篇文章相关度计算
关键词句和文本集每篇文章相关度计算:假设语料库中有几万篇文章,每篇文章的长度不一,你任意输入关键词或句子,通过代码以tf-idf值为准检索出来相似度高的文章. 1.TF-IDF概述 TF-IDF是一种 ...
- 怎么选择关键词以及关键词分析优化
怎么选择关键词以及关键词分析优化: 82%的用户在第一次搜索不成功时,并不更换搜索引擎,而是用更多(或长尾词)的关键词重新搜索 .90%的用户的点击会在搜索结果前3页.如果在前三页找不到所需要的搜索结 ...
- elasticsearch搜索分数自定义以及相关度计算相关
elasticsearch搜索分数自定义以及相关度计算相关 es通过其score字段对搜索结果进行排序 在进行业务开发时通常其默认的分数计算是不符合预期的. 最简单的方法是通过boost字段来对每一个 ...
- 什么是关键词?关键词有什么用?
什么是关键词? 关键词,就是您输入搜索框中的文字,也就是您命令搜索引擎寻找的东西. 您可以命令搜索引擎寻找任何内容,所以关键词的内容可以是:人名.网站.新闻.小说.软件.游戏.星座.工作.购物.论文等 ...
- oracle如何计算2个坐标的距离,百度地图两个坐标之间的距离计算
/** * 计算两组经纬度坐标 之间的距离 * params :lat1 纬度1: lng1 经度1: lat2 纬度2: lng2 经度2: len_type (1:m or 2:km); * re ...
- ML之MLiR:输入两个向量,得出两个向量之间的相关度
ML之MLiR:输入两个向量,得出两个向量之间的相关度 目录 输出结果 实现代码 输出结果 实现代码 import numpy as np from astropy.units import Ybar ...
- 什么是长尾关键词?长尾关键词优化方法和技巧
做网站SEO优化想必你也已经发现,一个网站的主要流量80%是来自长尾关键词.长尾关键词最常见的是分布在网站内容页,其次是栏目title.标签页.专题页.那么什么是长尾关键词呢?其实长尾关键词就是词比较 ...
最新文章
- R语言-处理异常值或报错的三个示例
- Oracle数据库索引失效,引起GoldenGate异常
- kaggle删除自己的数据集
- C#中常用的几种读取XML文件的方法
- 如何设计良好的viewcontroller
- 重温 const 指针
- 图论解决复杂路口红绿灯安排,python语言实现
- SpringCloud 使用Docker搭建Consul节点集群
- numpy 常用api(四)
- C语言:求矩阵非对角线元素的和
- NGINX 自动列目录
- ai人工智能_AI破坏已经开始
- HenCoder自定义View学习整理
- IP地址中的保留地址
- 永恒之蓝漏洞复现(MS17010)
- Word文档中对号以及对号外加方框的输入教程
- bzGhost打造跨平台即时聊天软件之专栏介绍
- SpringSecurity多种认证方式记录之自定义
- Netflix和它的混世猴子
- 计算机应用程序是啥意思,为什么某些Mac应用程序需要“使用辅助功能控制此计算机?...
热门文章
- 华为开发者学院 | 卷积神经网络与图像处理,听这一节课就够了
- ICLR 2020将采用远程会议,首次在非洲办会可能就这样泡汤了
- StringUtils工具类的isBlank()方法使用说明
- Docker + gunicron + supervisord 部署python应用
- Ext4 MVC CRUD操作
- 传清华应届生获Facebook offer
- 【Vegas原创】SQL Sever系统表及系统procedure的总结
- 名头不小!!VMware vSphere实为VI升级版。
- 固定在计算机主机箱体上,联结计算机各种部件,起桥梁作用的是,2014年12月计算机应用基础模拟试题...
- mysql 连接串 utf8_mysql 连接url中useUnicode=truecharacterEncoding=UTF-8 的作用