文档和词项之间的相关度计算汇总

下面针对《Spark高级数据分析》中的第六章的实验
进行原理上的分析
先来个矩阵Mm⋅nM_{m·n}Mm⋅n

	word1	word2	word3
doc1
doc2
doc3
doc4
doc5

Mm⋅n≈Um⋅kSk⋅k(VT)k⋅nM_{m·n}≈U_{m·k}S_{k·k}(V^T)_{k·n}Mm⋅n≈Um⋅kSk⋅k(VT)k⋅n
P118有一句十分关键的话：
线性代数运算告诉我们重构矩阵中的两个列的余弦相似度
正好等于SVTSV^TSVT的相应列的余弦相似度

这里的重构矩阵的意思就是Mm⋅nM_{m·n}Mm⋅n近似后的结果（就是上面等式的右侧）。

	表达式	对应书本
特定词语-每个词语相关度	Vn⋅kSk⋅k(VT)k⋅1V_{n·k}S_{k·k}(V^T)_{k·1}Vn⋅kSk⋅k(VT)k⋅1	6.9节
特定文档-每个文档相关度	Um⋅kSk⋅kU1⋅kU_{m·k}S_{k·k}U_{1·k}Um⋅kSk⋅kU1⋅k	6.10节
特定词语-每个文档相关度	Um⋅kSvt=Um⋅kSk⋅k(VT)k⋅1U_{m·k}Sv_t=U_{m·k}S_{k·k}(V^T)_{k·1}Um⋅kSvt=Um⋅kSk⋅k(VT)k⋅1	6.11节
特定文档-每个词语相关度	udTSV=U1⋅kSk⋅k(VT)k⋅nu_d^TSV=U_{1·k}S_{k·k}(V^T)_{k·n}udTSV=U1⋅kSk⋅k(VT)k⋅n	6.11节
多词项查询	Um⋅kSk⋅k⋅多词项构成的向量U_{m·k}S_{k·k}·多词项构成的向量Um⋅kSk⋅k⋅多词项构成的向量	6.12节

(VT)k⋅1(V^T)_{k·1}(VT)k⋅1：表示从Vk⋅nV_{k·n}Vk⋅n中抽取一列,即特定词语
U1⋅kU_{1·k}U1⋅k：表示从Um⋅kU_{m·k}Um⋅k中抽取一行,即特定文档

其中多词项查询相当于：
查询的多个关键词做成词向量，
最后计算该词向量和每个文档的相关度
也就是在模仿前面的“特定词语-每个文档相关度”，
计算的时候把特定词语对应的V中的向量替换成“多个关键词”构成的向量。

文档和词项之间的相关度计算汇总相关推荐

框架、文档、视图类之间的调用关系
在多文档MFC应用程序执行过程中,创建了多于一个的文档类.视图类.子框架类对象和一个主框架类.应用类对象.这些对象之间是通过一定的方式联系在一起的,在应用程序设计中,时常需要通过这些对象之间的关系来实 ...
【大运维之四】运维标准化文档的四项基本原则
http://www.csdn.net/article/2015-08-12/2825444 [大运维之四]运维标准化文档的四项基本原则发表于 2015-08-12 11:03| 534次阅读| ...
有没有文档取词翻译软件可以把文档翻译成中文
现如今,在工作.学习上我们都会经常需要用到文档.那有时候我们收到一些文档文件,里面有些外语单词我们看不懂怎么办?没关系,当你看完这篇文章,就能学会文档取词翻译怎么弄. 方法一:借助WPS Office ...
python文档相似性比较代码_Python使用gensim计算文档相似性
pre_file.py #-*-coding:utf-8-*- import MySQLdb import MySQLdb as mdb import os,sys,string import jie ...
jieba分词器（应用及字典的补充）及文档高频词提取实战
jieba分词器是Python中最好的中文分词组件,本文讲解一下jieba分词器及其应用. 1.jieba分词器的分词模式 jieba分词器提供了三种常用的分词模式 1.精确模式:将句子按照最精确的方 ...
用javascript自定义SharePoint文档库/列表项菜单
本文转自YCC博客我们在SharePoint中自定义菜单,通常通过带CustomAction 的Feature来实现,比如隐藏一个菜单: <HideCustomAction> Gro ...
金山词霸PDF文档取词
我安装了金山词霸2007.Adob reader 7.0 都是精简版 ,打开 PDF 文档无法用金山词霸取词,后来好不容易才在网上找到方法:如下把词霸目录中的 xdict32.api, 然后将它 ...
运维开发标准化文档的四项基本原则
标准化是指在特定领域的管理实践中,对重复性的事物和概念,通过制定.发布和实施标准达到统一,以获得最佳秩序和效益.通过运维的标准化,可以实现对"运维最佳实践"的归纳和总结,从而实现对 ...
金山词霸PDF文档取词攻略
将词霸的xdict32.api 拷贝到acrobat/ plug_ins目录下面,分别命名为xdict32.chs .xdict32.api ,重新启动词霸和Acrobat Reader 即可.

文档和词项之间的相关度计算汇总

文档和词项之间的相关度计算汇总相关推荐

最新文章

热门文章