一、潜在语义索引(Latent Semantic Indexing,以下简称LSI)

(一)简介
有的文章也叫Latent Semantic Analysis(LSA)。在这里我称做LSI,它是一种简单实用的主题模型,也是最早出现的主题模型了,它的算法原理很简单,是基于奇异值分解(SVD)的方法来得到文本的主题的。一次奇异值分解就可以得到主题模型,同时解决词义的问题,非常漂亮。但是LSI有很多不足,导致它在当前实际的主题模型中已基本不再使用。
(二)应用
得出文本的主题模型;
通过LSI得到的文本主题矩阵可以用于文本相似度计算,而计算方法一般是通过余弦相似度;
(三)存在的问题
1) SVD计算非常的耗时,尤其是我们的文本处理,词和文本数都是非常大的,对于这样的高维度矩阵做奇异值分解是非常难的。

2) 主题值的选取对结果的影响非常大,很难选择合适的k值。

3) LSI得到的不是一个概率模型,缺乏统计基础,结果难以直观的解释。

二、SVD(奇异值分解)

(一)什么是奇异值
奇异值是矩阵里的概念,一般通过奇异值分解定理求得。设A为m×n阶矩阵,q=min(m,n),A*A的q个非负特征值的算术平方根叫作A的奇异值。奇异值分解是线性代数和矩阵论中一种重要的矩阵分解法,适用于信号处理和统计学等领域。(来源:百度百科)
(二)奇异值分解(Singular Value Decomposition)
奇异值分解(Singular Value Decomposition,以下简称SVD)是在机器学习领域广泛应用的算法,它不光可以用于降维算法中的特征分解,还可以用于推荐系统,以及自然语言处理等领域,是很多机器学习算法的基石。
1.知识基础(线性代数):
特征值和特征向量
其中A是一个n×n的实对称矩阵,x是一个n维向量,则我们说λ是矩阵A的一个特征值,而x是矩阵A的特征值λ所对应的特征向量。
矩阵的特征分解
具体见:https://www.cnblogs.com/pinard/p/6251584.html

参考:
https://www.cnblogs.com/pinard/p/6805861.html

LSI(潜在语义索引)主题建模简介相关推荐

  1. 潜在语义索引(LSI)

    前言   在文本挖掘中,主题模型是比较特殊的一块,它的思想不同于我们常用的机器学习算法,因此这里我们需要专门来总结文本主题模型的算法.本文关注于潜在语义索引算法(LSI)的原理. 潜在语义索引(LSI ...

  2. 潜在语义索引SEO,网站关键词挖掘工具

    搜索引擎优化鼓励我们为用户提供有实际价值的内容.通过关键字挖掘,我们可以通过下拉词和相关词潜在语义索引挖掘出源源不断的实时热门词汇,让我们网站的文章更新和关键词排名变得更为容易. 关键字的重要性 每个 ...

  3. 独家 | 使用Python的LDA主题建模(附链接)

    作者:Kamil Polak翻译:刘思婧 校对:孙韬淳本文约2700字,建议阅读5分钟本文为大家介绍了主题建模的概念.LDA算法的原理,示例了如何使用Python建立一个基础的LDA主题模型,并使用p ...

  4. 主题模型简介(topic model)

    定义 对于一个文档集合来说,假如一篇文章是讲猫科动物的,那么可能会一部分讲猫, 一部分讲老虎, 一部分讲猎豹.那么讲猫的那一部分与猫有关的词语出现的频率应该高一些,比如"鱼",&q ...

  5. 隐性语义索引(LSI)

    1.Introduction 在向量模型中,将查询和文档均表示成同一空间下的向量,可以使用余弦相似度进行评分计算.但是,向量空间表示方法没有能力处理自然语言理解中的两个经典问题:一词多义(polyse ...

  6. 主题模型简介(Topic Models)

    主题模型简介(Topic Models) 要想更好地管理当今爆炸式的电子文档档案,需要使用新的技术或工具来处理自动组织.搜索.索引和浏览大型电子文档集合.在当今机器学习和统计学研究的基础上,利用层次概 ...

  7. 犀牛建模软件的英文语言包_使用tidytext和textmineR软件包在R中进行主题建模(

    犀牛建模软件的英文语言包 In this article, we will learn to do Topic Model using tidytext and textmineR packages ...

  8. 独家 | LDA主题建模和pyLDAvis可视化

    作者:Xuan Qi 翻译:方星轩 校对:欧阳锦 本文约1700字,建议阅读6分钟 本文的数据来自美国著名电视节目<老友记>.作者用python-Beautiful Soup抓取了224集 ...

  9. 【自然语言处理】不同策略的主题建模方法比较

    不同策略的主题建模方法比较 本文将介绍利用 LSA.pLSA.LDA.NMF.BERTopic.Top2Vec 这六种策略进行主题建模之间的比较. 1.简介 在自然语言处理(NLP)中,主题建模一词包 ...

最新文章

  1. fabric-ca-server 配置mysql数据库,区块链(4)
  2. RDKit | RDKit 中的RECAP进行分子裂解
  3. Android的NDK开发(3)————JNI数据类型的详解
  4. 文档 笔记 我全都要
  5. struts2,jsp,freemarker编程小技巧
  6. Android中将一个图片切割成多个图片[转]
  7. 一个简单的PHP Web论坛
  8. mysql math.max_Math.max.apply()用法
  9. java使用jacob语言实现阅读文字,文字转语音
  10. 转 生成 HTMLTestRunner 测试报告
  11. android第三方集成埋点,Android集成mPass 埋点遇到的问题
  12. pl2303hxa串口线驱动_Prolific PL2303 USB转串口线驱动
  13. Windows Tomcat 内存溢出解决方法
  14. 局域网传输文件_局域网微信?这是什么神仙玩法
  15. 深刻剖析快速排序为什么不稳定?
  16. Oracle EBS供应商信息查询SQL语句
  17. 统治地球的冯·诺依曼
  18. 【唐诗分析器】实现思想代码+具体测试
  19. 都2022年了,还在争论编程语言?
  20. ytu 2463:给小鼠补充代码(DFS 深度优先搜索)

热门文章

  1. redis中hash数据结构
  2. 本人初学时java基础笔记
  3. 接口限流:限制接口的访问频率
  4. Python程序练习题
  5. 【Flink】The return type of function ‘Custom Source‘ could not be determined automatically
  6. 分布式事务 解决方案
  7. 工作流管理系统开发之十二 同一张表单在流程多节点中流转的权限控件
  8. Docker Compose 练习:投票 App
  9. 驮运Piggy Back
  10. SpringBoot整合Swagger2/Swagger3之拦截器配置