原文作者:Dr. Edel Garcia

原文地址:https://apluswebservices.com/wp-content/uploads/2012/05/latent-semantic-indexing-fast-track-tutorial.pdf

  • 摘要:本快速教程提供了使用奇异值分解(SVD)计算方法和Term Count Model对查询和文档评分以及对结果排序的说明。
  • 关键词:潜在语义索引,LSI,奇异值分解,SVD,特征向量,文档,查询,余弦相似度,term count model
  • 背景:以下LSI示例摘自Grossman和Frieder的Information Retrieval, Algorithms and Heuristics (1)的第71页

一个collection由下面的documents组成:

  1. Shipment of gold damaged in a fire.
  2. Delivery of silver arrived in a silver truck.
  3. Shipment of gold arrived in a truck.

作者使用Term Count Model计算term weights和query weights,因此将local weights定义为词汇出现的频率,还使用了下面的文档索引规则:

  1. 停用词不会被忽略
  2. 文本都是已分词(tokenized)且小写的
  3. 词干化(stemming)不会被用到
  4. 词语按照字母顺序排列

在本教程中,我们想使用这个例子来说明LSI是如何工作的。现在我们知道,大多数当前的LSI模型不仅仅基于local weights,而是基于包含local、global和document normalization weights模型。其他的还有entropy weights和link weights。我们还知道,现代的模型都忽略了停用词和在文档中只出现了一次的词。词干化和以字母顺序排列是可选的。对于这个快速教程,这个例子已经足够好了。

  • 问题:当以gold silver truck为搜索词时,使用潜在语义索引(LSI)对这些文档进行排名。

1.计算term weights并且构造词-文档矩阵A和查询矩阵:

2.分解矩阵A,并找到U、S和V,使得

3.通过保留u和v的第一列以及s的第一列和第一行来实现秩2近似。

4.在这个降维的二维空间中找到新的文档向量坐标。

V的行向量保留特征向量,这些是单独的文档向量(document vectors)的坐标,因此:

d1(-0.4945,0.6492)

d2(-0.6458,-0.7194)

d3(-0.5817,0.2469)

5.在降维的二维空间中找到新的查询向量坐标。

注意:这是二维中的查询向量(query vector)的新坐标。请注意现在这个矩阵与步骤1中给出的原始查询矩阵q不同。

6.按照查询-文档的余弦相似度的降序排列文档。

计算余弦相似度的公式如下,首先计算查询向量和文档向量之间的点积,然后除以查询向量和文档向量模的乘积。

我们可以看到文档d2的分数高于d3和d1,它的向量比其他向量更接近查询向量。请注意,词向量理论仍然应用于LSI的开始与结尾。

潜在语义索引(Latent Semantic Indexing, LSI)——快速教程相关推荐

  1. 潜在语义索引(LSI)

    前言   在文本挖掘中,主题模型是比较特殊的一块,它的思想不同于我们常用的机器学习算法,因此这里我们需要专门来总结文本主题模型的算法.本文关注于潜在语义索引算法(LSI)的原理. 潜在语义索引(LSI ...

  2. LSI(潜在语义索引)主题建模简介

    一.潜在语义索引(Latent Semantic Indexing,以下简称LSI) (一)简介 有的文章也叫Latent Semantic Analysis(LSA).在这里我称做LSI,它是一种简 ...

  3. 【推荐】LSI(latent semantic indexing) 完美教程

    [推荐]LSI(latent semantic indexing) 完美教程 "instead of lecturing about SVD I want to show you how t ...

  4. 潜在语义分析(Latent Semantic Analysis,LSA)

    文章目录 1. 单词向量空间.话题向量空间 1.1 单词向量空间 1.2 话题向量空间 2. 潜在语义分析算法 2.1 例子 3. 非负矩阵分解算法 4. TruncatedSVD 潜在语义分析实践 ...

  5. 潜在语义索引SEO,网站关键词挖掘工具

    搜索引擎优化鼓励我们为用户提供有实际价值的内容.通过关键字挖掘,我们可以通过下拉词和相关词潜在语义索引挖掘出源源不断的实时热门词汇,让我们网站的文章更新和关键词排名变得更为容易. 关键字的重要性 每个 ...

  6. Latent Semantic Analysis (LSA) Tutorial第一部分(转载)

    译:http://www.puffinwarellc.com/index.php/news-and-articles/articles/33.html WangBen 2011-09-16 beiji ...

  7. 【译】潜在语义分析Latent Semantic Analysis (LSA)

    目录 目录 概述 Tutorial LSA的工作原理 How Latent Semantic Analysis Works 实例A Small Example Part 1 - Creating th ...

  8. 潜在语义分析(Latent Semantic Analysis)

    潜在语义分析(Latent Semantic Analysis) 潜在语义分析(Latent Semantic Analysis, LSA)是自然语言处理中的一种方法或技术.潜在语义分析(LSA)的主 ...

  9. Latent semantic analysis note(LSA)

    1 LSA Introduction LSA(latent semantic analysis)潜在语义分析,也被称为LSI(latent semantic index),是Scott Deerwes ...

  10. Latent semantic analysis (LSA)

    1 LSA Introduction LSA(latent semantic analysis)潜在语义分析,也被称为LSI(latent semantic index),是Scott Deerwes ...

最新文章

  1. 10条有益的涉世忠告
  2. hibernate 关联总结
  3. html实现照片添加功能,HTML5 Canvas调用手机拍照功能实现图片上传功能(图文详解上篇)...
  4. react-router5.x 的配置及其页面跳转方法和js跳转方法
  5. hwt字体转换ttf_五分钟教你弄懂了字体反爬是个啥
  6. spring揭秘_被问到了! Spring 和 Spring Boot 之间到底有啥区别?
  7. 负载均衡会话保持技术、原理、产品(以F5为例)
  8. php mysql持久连接是怎样的_怎样使PHP与MySQL数据库进行持久连接
  9. 项目进度计划表(模板)_开工必备!excel表一键绘图,施工进度计划横道图从此不用愁...
  10. ios-deploy out of date (1.9.4 is required). To upgrade with Brew: brew upgrade ios-deploy
  11. mapxtreme java_MapXtreme Java Edition 4.8使用心得(二)
  12. 2001年新闻组大全
  13. 【UML 建模】在线UML建模工具 ProcessOn 使用详解
  14. linux 如何重建mbr,双系统如何删除Linux,恢复Windows从MBR引导启动?
  15. 十大热门行业公布 成都仍是跳槽首选
  16. 简单分析RTMP规范
  17. php 法定节假日接口,通过百度接口获取每一个月的工作和法定假日
  18. AR虚拟互动系统创造身临其境的多元互动体验
  19. 6款超实用微信小程序,任何手机都需要!
  20. 一条 Select 语句 在 Postgresql 中的执行链路

热门文章

  1. hdu 1561(树形DP+背包)
  2. Dev C++支持c++11标准的编译方法
  3. SQL Server 中字符串中包含字符串变量的表示方法
  4. gdb在cygwin下的安装
  5. POJ_2258 The settlers of Catan (DFS)
  6. 三维激光扫描数据处理理论及应用
  7. java做一个简单的银行账户演示程序_JAVA初学(七):银行账户演示程序
  8. java钝化_session的活化与钝化 (转)
  9. HDFS分布式文件系统知识总结
  10. Flutter动画系列之SizeTransition