生成式模型:LDA与LSI-SVD分解
原文链接:http://blog.sina.com.cn/s/blog_5033f3b40101flbj.html
文章图文并茂,我就不转载了!!!
科普文:判别式模型与生成式模型区别;
分类器的数学表达式为:给定输入变量 X以及分类变量 Y,求 P(Y|X)。判别式模型通过直接数据回归分析,直接估算 P(Y|X)。生成式模型的思想是先估计联合概率密度 P(X,Y),再通过贝叶斯公式计算边缘分布,求出 P(Y|X)。比如最大熵模型为判别式模型,而HMM、LDA、贝叶斯网络等为生成式模型。
LSI-Latent Semantic Indexing.浅语义分析
针对缺点1,LSI(1990)将矩阵X进行奇异值分解,然后只取一部分作为其特征,此过程其实就相当于对X进行pca降维。将原始的向量转化到一个低维的隐含语义空间中,而保留下来的维度(根据奇异值大小决定)所对应的奇异值就对应了每个‘隐含语义’的权重,去掉的那些维度就相当于把那些不重要的‘隐含语义’的权重赋值为0.
LSI的作者Deerwester称由LSI得到的特征能够捕获一些基本的语义概念,例如同义词等。个人理解,这是由pca的性质决定的,。
LSI如其名字Latent Semantic Indexing, 旨在在词频矩阵X的基础上找出latent semantic,潜藏的语义信息。
其缺点是:不能解决多义词问题;
个人理解:这种方法就像词包模型一样,有一定的道理,但没有明确化,不像概率模型一样具体化。原文中说‘Given a generative model of text, however, it isnot clear why one should adopt the LSImethodology’,个人觉得就是说他的理论基础不够明白,所以后续推出PLSI,就是能够从数学上,从理论上具有严格意义的说明是怎么回事,到底是为什么有效,又怎么得出理论解。
模型的扩展性:如何解决长尾数据问题?
相关文章:搜索引擎算法——浅谈语义主题计算
生成式模型:LDA与LSI-SVD分解相关推荐
- PRML第八章读书笔记——Graphical Models 生成式模型/超先验/层次贝叶斯模型、d-分离/朴素贝叶斯、有向分解/马尔可夫毯、D图I图完美图、马尔科夫链/因子图/和积算法/最大和算法
(终于读到概率图了,从这一章开始应该算是PRML的精华内容了.过于基础的东西就不写了,主要写自己不会的) 目录 8.1 Bayesian Networks P365 祖先采样法ancestral sa ...
- SVD分解——潜在语义分析LSA(I)——概率性潜在语义分析PLSA(I)
SVD分解 正交矩阵:若一个方阵其行与列皆为正交的单位向量,则该矩阵为正交矩阵,且该矩阵的转置和其逆相等.两个向量正交的意思是两个向量的内积为 0. 正定矩阵:如果对于所有的非零实系数向量 z z z ...
- 主题模型LDA、NMF、LSA
一.主题模型解决了哪些问题 1.主题模型的概念:主题模型是提取文本 抽象主题相似度 的一种统计模型,自动分析每个文档,统计文档内词语,根据统计的信息判断当前文档包含哪些主题以及各个主题所占比例各为多少 ...
- 矩阵分解 SVD分解
在认识SVD之前,先来学习两个相关的概念:正交矩阵和酉矩阵. 如果,则阶实矩阵称为正交矩阵.而酉矩阵是正交矩阵往复数域上的推广. 判断正交矩阵和酉矩阵的充分必要条件是:.或者说正交矩阵和酉矩阵的共轭转 ...
- 【机器学习中的矩阵分解】LU分解、QR分解、SVD分解
学习总结 文章目录 学习总结 一.三角分解(LU分解) 1.1 高斯消元 1.2 LU分解原理 1.3 LU分解python代码 1.4 LU分解算法 二.QR分解 2.1 Schmid 正交化 2. ...
- 主题模型 LDA 入门(附 Python 代码)
一.主题模型 在文本挖掘领域,大量的数据都是非结构化的,很难从信息中直接获取相关和期望的信息,一种文本挖掘的方法:主题模型(Topic Model)能够识别在文档里的主题,并且挖掘语料里隐藏信息,并且 ...
- 什么是奇异值?奇异值分解是什么?SVD分解详解及实战
什么是奇异值?奇异值分解是什么?SVD(Singular Value Decomposition)分解详解及实战 TSVD:Truncated Singular Value Decomposition ...
- 机器学习--判别式模型与生成式模型
原文地址为:机器学习--判别式模型与生成式模型 一.引言 本材料参考Andrew Ng大神的机器学习课程 http://cs229.stanford.edu 在上一篇有监督学习回归模型中,我们利用训练 ...
- BAT面试题9:谈谈判别式模型和生成式模型?
BAT面试题9:谈谈判别式模型和生成式模型? https://mp.weixin.qq.com/s/X7zWJCMN7gbCwqskIIpLcw 判别方法:由数据直接学习决策函数 Y = f(X),或 ...
最新文章
- JavaScript学习(八)
- 基于SSM实现考研信息管理平台系统
- 【SeeMusic】创建 SeeMusic 工程并编辑相关内容 ( 创建工程 | 导入 MIDI 文件 | 导入音频 | 导入视频 )
- 求二叉树中叶子结点的个数
- Unsupported major.minor version 51.0解决办法
- C++ STL string 简单使用
- 马走日程序Java_马走日什么意思
- mybatis按datetime条件查询,参数为时间戳时
- 基础02Random类、ArrayList类
- 使用eclipse搭建maven项目Java web项目
- oracle winxsx 目录,Mac迅雷瘦身精简教程
- python实现图片切割及拼图游戏
- 有物不知其数,三三数之剩二,五五数之剩三,七七数之剩二。问物几何?
- HTML中温度符号的输入
- 计算机内存条只认了一个,怎么解决Win10插入2个4G内存条却只显示4G?
- 高并发系统负载均衡与实时监控的实用方案
- Puppet学习之hiera(8)
- win7音量图标点了没反应的修复方法
- 单片微型计算机系统应用和开发特点,单片微机原理及应用--徐春辉---电子工业出版社习题答案.doc...
- Java_Map_Map详解
热门文章
- [New Portal]Windows Azure Virtual Machine (18) Azure Virtual Machine内部IP和外部IP
- Android自己搭建一个实用的SharedPreferences管理类
- linux systemd 使用
- 人工智能过于发达可能将后患无穷
- python【5】-生成式,生成器
- 虚拟化概述及VMware VSphere介绍(一)
- CSS_DIV学习记录2(用背景颜色实现一个网页的完整布局)
- Git 修改 proxy,解决代理导致的代码无法 push 或 pull 的问题
- 写5个不同的自己的函数,来截取一个全路径的文件的扩展名,允许封装php库中已有的函数。
- memset()函数的赋值问题