下面针对《Spark高级数据分析》中的第六章的实验
进行原理上的分析
先来个矩阵Mm⋅nM_{m·n}Mm⋅n​

word1 word2 word3
doc1
doc2
doc3
doc4
doc5

Mm⋅n≈Um⋅kSk⋅k(VT)k⋅nM_{m·n}≈U_{m·k}S_{k·k}(V^T)_{k·n}Mm⋅n​≈Um⋅k​Sk⋅k​(VT)k⋅n​
P118有一句十分关键的话:
线性代数运算告诉我们重构矩阵中的两个列的余弦相似度
正好等于SVTSV^TSVT的相应列的余弦相似度

这里的重构矩阵的意思就是Mm⋅nM_{m·n}Mm⋅n​近似后的结果(就是上面等式的右侧)。

表达式 对应书本
特定词语-每个词语相关度 Vn⋅kSk⋅k(VT)k⋅1V_{n·k}S_{k·k}(V^T)_{k·1}Vn⋅k​Sk⋅k​(VT)k⋅1​ 6.9节
特定文档-每个文档相关度 Um⋅kSk⋅kU1⋅kU_{m·k}S_{k·k}U_{1·k}Um⋅k​Sk⋅k​U1⋅k​ 6.10节
特定词语-每个文档相关度 Um⋅kSvt=Um⋅kSk⋅k(VT)k⋅1U_{m·k}Sv_t=U_{m·k}S_{k·k}(V^T)_{k·1}Um⋅k​Svt​=Um⋅k​Sk⋅k​(VT)k⋅1​ 6.11节
特定文档-每个词语相关度 udTSV=U1⋅kSk⋅k(VT)k⋅nu_d^TSV=U_{1·k}S_{k·k}(V^T)_{k·n}udT​SV=U1⋅k​Sk⋅k​(VT)k⋅n​ 6.11节
多词项查询 Um⋅kSk⋅k⋅多词项构成的向量U_{m·k}S_{k·k}·多词项构成的向量Um⋅k​Sk⋅k​⋅多词项构成的向量 6.12节

(VT)k⋅1(V^T)_{k·1}(VT)k⋅1​:表示从Vk⋅nV_{k·n}Vk⋅n​中抽取一列,即特定词语
U1⋅kU_{1·k}U1⋅k​:表示从Um⋅kU_{m·k}Um⋅k​中抽取一行,即特定文档

其中多词项查询相当于:
查询的多个关键词做成词向量,
最后计算该词向量和每个文档的相关度
也就是在模仿前面的“特定词语-每个文档相关度”,
计算的时候把特定词语对应的V中的向量替换成“多个关键词”构成的向量。

文档和词项之间的相关度计算汇总相关推荐

  1. 框架、文档、视图类之间的调用关系

    在多文档MFC应用程序执行过程中,创建了多于一个的文档类.视图类.子框架类对象和一个主框架类.应用类对象.这些对象之间是通过一定的方式联系在一起的,在应用程序设计中,时常需要通过这些对象之间的关系来实 ...

  2. 【大运维之四】运维标准化文档的四项基本原则

    http://www.csdn.net/article/2015-08-12/2825444 [大运维之四]运维标准化文档的四项基本原则 发表于 2015-08-12 11:03|  534次阅读| ...

  3. 有没有文档取词翻译软件可以把文档翻译成中文

    现如今,在工作.学习上我们都会经常需要用到文档.那有时候我们收到一些文档文件,里面有些外语单词我们看不懂怎么办?没关系,当你看完这篇文章,就能学会文档取词翻译怎么弄. 方法一:借助WPS Office ...

  4. python文档相似性比较代码_Python使用gensim计算文档相似性

    pre_file.py #-*-coding:utf-8-*- import MySQLdb import MySQLdb as mdb import os,sys,string import jie ...

  5. jieba分词器(应用及字典的补充)及文档高频词提取实战

    jieba分词器是Python中最好的中文分词组件,本文讲解一下jieba分词器及其应用. 1.jieba分词器的分词模式 jieba分词器提供了三种常用的分词模式 1.精确模式:将句子按照最精确的方 ...

  6. 用javascript自定义SharePoint文档库/列表项菜单

    本文转自YCC博客 我们在SharePoint中自定义菜单,通常通过带CustomAction 的Feature来实现,比如隐藏一个菜单: <HideCustomAction>   Gro ...

  7. 金山词霸PDF文档取词

    我安装了金山词霸2007.Adob reader 7.0 都是精简版 ,打开 PDF 文档无法用金山词霸取词,后来好不容易才在网上找到方法:如下 把词霸目录中的   xdict32.api, 然后将它 ...

  8. 运维开发标准化文档的四项基本原则

    标准化是指在特定领域的管理实践中,对重复性的事物和概念,通过制定.发布和实施标准达到统一,以获得最佳秩序和效益.通过运维的标准化,可以实现对"运维最佳实践"的归纳和总结,从而实现对 ...

  9. 金山词霸PDF文档取词攻略

    将词霸的xdict32.api  拷贝到acrobat/ plug_ins目录下面,分别命名为xdict32.chs .xdict32.api ,重新启动词霸和Acrobat Reader 即可.

最新文章

  1. PCA图像数据降维及重构误差分析实战并使用TSNE进行异常数据可视化分析
  2. 开源引领的万亿级市场,该如何打造出成功的商业模式?
  3. 第十六届智能车竞赛参赛队伍提问-2021-6-15
  4. SpringtMVC中配置 mvc:annotation-driven/ 与 mvc:default-servlet-handler/ 的作用
  5. PyCharm修改镜像源无用?
  6. 算法与数据结构(python):快速排序
  7. (13)python 字典 2 分钟速解
  8. Linux下python升级步骤
  9. android给图片加边框,Android学习笔记进阶19之给图片加边框
  10. ThinkPHP文件上传
  11. NASM汇编语言与计算机系统13-段的定义/vstart和align语法
  12. 中国云计算进入全球通时代 阿里云四大海外数据中心相继开服
  13. python服务器搭建nginx_从0开始在腾讯云服务器上搭建python3+flask+uwsgi+nginx服务器...
  14. Servlet与JSP项目实战 — 博客系统(上)
  15. springboot项目打包成jar包
  16. [SoftWare]基于Windriver快速驱动开发
  17. 淘宝店如何加入全屏轮播图片
  18. java中产生0-100之间的随机整数
  19. 用计算机如何计算投资回收期,动态投资回收期怎么算的?
  20. python采集小说网站完整教程(附完整代码)

热门文章

  1. 对图片对比度和亮度的理解
  2. VS2003编译后的网站如何修改代码
  3. 全球 MEDC 2007 举行日期
  4. Vue watch如何同时监听多个属性?
  5. python pandas读取txt文件_python Pandas 读取txt表格的实例
  6. Ajax拿取html格式数据
  7. java如何打开整个package_Qulice - 如何在整个项目中禁用需要package-info.java的规则?...
  8. 分享两个JavaScript打乱数组顺序实现随机排序洗牌的方法(应用于音乐视频的随机播放等)
  9. ubuntu16.04打开软件或终端的窗口自动在左上角
  10. 时序分析:HMM模型(状态空间)