单词向量空间(TF-IDF)

单词-文本矩阵

给定一个含有n个文本的集合D={d1,d2,d3,...,dn},以及在所有文本中出现m个单词的集合W={w1,w2,...,wm}。将单词在文本中出现的数据用一个单词文本矩阵表示,记作X

这是一个m×n的矩阵,元素xij表示单词wi在文本dj中出现的频数或者权值

应用统计方法:单词在文本的权值表示采用TF-IDF。

权值通常使用单词频率-逆文本频率(term frequency-inverse document frequency,TF-IDF)

是单词wi出现在文本dj中的频数,是文本dj出现在所有单词的频数之和,dfi是含有单词wi的文本数,df是文本集合D的全部文本数。

利用单词向量来表示文本之间的语义相似程度方法为:计算两个单词向量的内积或者标准化内积(余弦)

对于单词向量空间来说当有语义相近的词时不能很好的表征文本之间语义相似程度,所以引入了话题向量空间。

话题向量空间

单词-话题

假设所有文本中含有k个话题,假设每个话题由一个定义在单词集合W上的m维向量表示,称为话题向量。

是单词wi在话题的权值,权值越大,该单词在该话题中的重要度越大

话题向量空间T可也表示为一个矩阵,称为单词-话题矩阵,记作

文本-话题

考虑文本集合D的文本dj,在单词向量空间中由一个向量xj表示,将xj投影到话题向量空间T中,得到话题向量空间的一个向量yj,yj是一个K维的向量。

ylj是文本dj在话题tl的权值,权值越大,该话题在该文本中的重要程度就越高。

矩阵Y表示话题在文本中的情况,称为话题-文本矩阵

从单词向量空间到话题向量空间的线性转换

潜在语义分析

单词文本矩阵X可近似由单词话题矩阵T与话题文本矩阵Y的乘积形式表示。

LSA要做的就是在已知X的情况下求得TY。

主要方法有:

  • 矩阵奇异值分解
  • 非负矩阵分解

潜在语义分析(TF-IDF、LSA)相关推荐

  1. 潜在语义分析(LSA)

    潜在语义分析(LSA) ​ 潜在语义分析LSA(Latent Semantic Analysis )也叫作潜在语义索引LSI( Latent Semantic Indexing )顾名思义是通过分析文 ...

  2. LSA(潜在语义分析)

    转载https://blog.csdn.net/fkyyly/article/details/84665361 link LSA最初是用在语义检索上,为了解决一词多义和一义多词的问题: 1.一义多词: ...

  3. 潜在语义分析(LSA)详解

    文章目录 单词向量空间 话题向量空间 算法实现 矩阵奇异值(SVD)分解算法 非负矩阵(NMF)分解算法 基本思想 损失函数 (1)平方损失 (2)散度损失函数 算法 (1)平方损失函数更新法则 (2 ...

  4. 潜在语义分析(LSA)相关知识

    文章目录 单词-文本矩阵 话题向量空间 文本在话题向量空间中的表示 从单词向量空间到话题向量空间的线性变换 潜在语义分析算法 矩阵奇异值(SVD)分解算法 非负矩阵(NMF)分解算法 基本思想 损失函 ...

  5. 潜在语义分析 (LSA),概率潜在语义分析 (PLSA)

    目录 潜在语义分析 (latent semantic analysis, LSA) 单词向量空间与话题向量空间 单词向量空间 (word vector space) 话题向量空间 (topic vec ...

  6. LSA算法——潜在语义分析概率潜在语义分析

    1.简介 LSA使一种无监督学习方法,主要用于文本的话题分析,其特点使通过矩阵分解发现文本与单词之间的基于话题的语义关系.潜在语义分析通常将文本集合表示为单词-文本矩阵,对单词-文本矩阵进行奇异值分解 ...

  7. 统计学习方法第十七章作业:LSA潜在语义分析算法 代码实现

    LSA潜在语义分析算法 import numpy as np import jieba import collectionsclass LSA:def __init__(self,text_list) ...

  8. SVD(奇异值分解)与LSA(潜在语义分析)

    特征值与特征向量 在讲解SVD(奇异值分解)之前,首先回顾一下线性代数中的特征值分解,对于一个 n ∗ n n*n n∗n的矩阵 A A A,存在实数 λ 和 n 维向量 x \lambda和n维向量 ...

  9. SVD分解——潜在语义分析LSA(I)——概率性潜在语义分析PLSA(I)

    SVD分解 正交矩阵:若一个方阵其行与列皆为正交的单位向量,则该矩阵为正交矩阵,且该矩阵的转置和其逆相等.两个向量正交的意思是两个向量的内积为 0. 正定矩阵:如果对于所有的非零实系数向量 z z z ...

  10. 【译】潜在语义分析Latent Semantic Analysis (LSA)

    目录 目录 概述 Tutorial LSA的工作原理 How Latent Semantic Analysis Works 实例A Small Example Part 1 - Creating th ...

最新文章

  1. Vim的行号、语法显示等设置(.vimrc文件的配置)以及乱码解决
  2. sklearn学习(三)
  3. nutzwk oracle,NutzWk插件使用
  4. 第一阶段冲刺 第二天
  5. java bean jsp_JavaBean与Jsp
  6. Java Collection接口详解
  7. db2 命令选项解释
  8. mysql 存储汉字_MySQL存储汉字
  9. 友盟+发布小程序统计分析工具U-MiniProgram
  10. Linux之间ssh免密码登录
  11. 代码整洁之道—技术分享
  12. Winform微信扫码支付
  13. 各类光纤接口类型的区别与图示
  14. MEMS传感市场,美/日/德企占主导地位
  15. katacontainers网络文件系统分析
  16. 物联网芯片的协议之WLAN及其调制
  17. 入门学习-Python-小甲鱼学习资料-Day031-永久存储:腌制一缸美味的泡菜
  18. 计算机主机箱内的主要硬件有,电脑的基本硬件包括哪些
  19. 大数据技术之_17_Storm学习_Storm 概述+Storm 基础知识+Storm 集群搭建+Storm 常用 API+Storm 分组策略和并发度
  20. BUAA_OO 第二单元多线程电梯问题作业总结

热门文章

  1. linux配置端口映射
  2. java下载不了怎么_如何下载和安装Java
  3. Keli μVision中 STR指令写入内存无效
  4. 我的世界有宠物系统服务器,我的世界:如果Minecraft加入战斗宠物系统,推荐5大最强生物!...
  5. WGS-84与北京-54、西安-80及地方坐标系的转换
  6. 苹果CMS v10详细安装教程+官方原版源码分享
  7. 测试注意力的游戏软件,培养孩子专注力,1套测试题+7个小游戏,在家就可以轻松玩!(家长必看)...
  8. 分享119个Android手机应用源代码总有一个是你想要的
  9. linux命令 sync,linux sync命令详解
  10. like语句太慢 sqlserver_SQLSERVER查询速度慢的原因收集以及优化建议