电信保温杯笔记——《统计学习方法(第二版)——李航》第17章 潜在语义分析

  • 论文
  • 介绍
  • 单词向量空间
  • 话题向量空间
    • 话题向量空间
    • 文本在话题向量空间的表示
    • 从单词向量空间到话题向量空间的线性变换
  • 潜在语义分析算法
    • 矩阵奇异值分解算法
      • 步骤
        • 1. 单词-文本矩阵
        • 2. 截断奇异值分解
        • 3. 话题向量空间
        • 4. 文本的话题空间表示
      • 例子
    • 非负矩阵分解算法
      • 非负矩阵分解
      • 潜在语义分析模型
      • 非负矩阵分解的形式化
      • 算法
        • 步骤
  • 本章概要
  • 相关视频
  • 相关的笔记
  • 相关代码

论文

潜在语义分析:《Indexing by latent semantic analysis》
非负矩阵分解算法:《Learning parts of objects by non-negative matrix factorization》、《Algorithms for non-negative matrix factorization》

介绍

电信保温杯笔记——《统计学习方法(第二版)——李航》
本文是对原书的精读,会有大量原书的截图,同时对书上不详尽的地方进行细致解读与改写。

潜在语义分析(latent semantic analysis,LSA)是一种无监督学习方法,也被称为潜在语义索引(latent semantic indexing,LSI),主要用于文本的话题分析。传统的方法以单词向量表示文本的语义内容,以单词向量空间的度量表示文本之间的语义相似度。潜在语义分析旨在解决这种方法不能准确表示语义的问题,试图从大量的文本数据中发现潜在的话题,以话题向量表示文本的语义内容,以话题向量空间的度量更准确地表示文本之间的语义相似度。具体地,将文本集合表示为单词-文本矩阵,对单词-文本矩阵进行分解,从而得到话题向量空间,以及文本在话题向量空间的表示。

单词向量空间在内积相似度未必能够准确表达两个文本的语义相似度。因为自然语言的单词具有一词多义性(polysemy)及多词一义性(synonymy),即同一个单词可以表示多个语义,多个单词可以表示同一个语义,所以基于单词向量的相似度计算存在不精确的问题。为了解决这个问题,提出了话题向量空间。

单词向量空间

优点:单词向量空间模型的优点是模型简单,计算效率高。因为单词向量通常是稀疏的,两个向量的内积计算只需要在其同不为零的维度上进行即可,需要的计算很少,可以高效地完成。
缺点:在内积相似度未必能够准确表达两个文本的语义相似度。因为自然语言的单词具有一词多义性(polysemy)及多词一义性(synonymy),即同一个单词可以表示多个语义,多个单词可以表示同一个语义,所以基于单词向量的相似度计算存在不精确的问题。

话题向量空间

话题向量空间

文本在话题向量空间的表示

从单词向量空间到话题向量空间的线性变换

潜在语义分析算法

矩阵奇异值分解算法

步骤

1. 单词-文本矩阵

2. 截断奇异值分解

3. 话题向量空间

4. 文本的话题空间表示

例子

非负矩阵分解算法

非负矩阵分解

潜在语义分析模型

非负矩阵分解的形式化

算法

∂J(W,H)∂Wil=∂(12∑p∑j[Xpj−∑kWpkHkj]2)∂Wil=12∂(∑p≠i∑j[Xpj−∑kWpkHkj]2+∑j[Xij−∑kWikHkj]2)∂Wil=12∂(∑j[Xij−∑kWikHkj]2)∂Wil=12∑j∂([Xij−∑kWikHkj]2)∂Wil=∑j([Xij−∑kWikHkj])∂([Xij−∑kWikHkj])∂Wil=∑j([Xij−(WH)ij])∂([Xij−∑kWikHkj])∂Wil=−∑j([Xij−(WH)ij])∂(∑kWikHkj])∂Wil=−∑j([Xij−(WH)ij])Hlj=−∑j([Xij−(WH)ij])HjlT=−(∑jXijHjlT−∑j(WH)ijHjlT)=−[(XHT)jl−(WHHT)ij](17.28)\begin{aligned} \frac{\partial J(W,H)}{\partial W_{il}} &= \frac{ \partial \left( \frac{1}{2} \sum_{p}\sum_{j} [X_{pj} - \sum_k W_{pk}H_{kj} ]^2 \right) }{\partial W_{il}} \\ &= \frac{1}{2} \frac{ \partial \left( \sum_{p\neq i}\sum_{j} [X_{pj} - \sum_k W_{pk}H_{kj} ]^2 + \sum_{j} [X_{ij} - \sum_k W_{ik}H_{kj} ]^2 \right) }{\partial W_{il}} \\ &= \frac{1}{2} \frac{ \partial \left( \sum_{j} [X_{ij} - \sum_k W_{ik}H_{kj} ]^2 \right) }{\partial W_{il}} \\ &= \frac{1}{2} \sum_{j} \frac{ \partial \left( [X_{ij} - \sum_k W_{ik}H_{kj} ]^2 \right) }{\partial W_{il}} \\ &= \sum_{j} \left( [X_{ij} - \sum_k W_{ik}H_{kj} ] \right)\frac{ \partial \left( [X_{ij} - \sum_k W_{ik}H_{kj} ] \right) }{\partial W_{il}} \\ &= \sum_{j} \left( [X_{ij} - (WH)_{ij} ] \right)\frac{ \partial \left( [X_{ij} - \sum_k W_{ik}H_{kj} ] \right) }{\partial W_{il}} \\ &= -\sum_{j} \left( [X_{ij} - (WH)_{ij} ] \right)\frac{ \partial \left( \sum_k W_{ik}H_{kj} ] \right) }{\partial W_{il}} \\ &= -\sum_{j} \left( [X_{ij} - (WH)_{ij} ] \right) H_{lj} \\ &= -\sum_{j} \left( [X_{ij} - (WH)_{ij} ] \right) H_{jl}^T \\ &= - \left( \sum_{j}X_{ij}H_{jl}^T - \sum_{j}(WH)_{ij}H_{jl}^T \right) \\ &= - \left[ (XH^T)_{jl} - (WHH^T)_{ij} \right] \quad\quad\quad\quad\quad\quad (17.28) \end{aligned}∂Wil​∂J(W,H)​​=∂Wil​∂(21​∑p​∑j​[Xpj​−∑k​Wpk​Hkj​]2)​=21​∂Wil​∂(∑p=i​∑j​[Xpj​−∑k​Wpk​Hkj​]2+∑j​[Xij​−∑k​Wik​Hkj​]2)​=21​∂Wil​∂(∑j​[Xij​−∑k​Wik​Hkj​]2)​=21​j∑​∂Wil​∂([Xij​−∑k​Wik​Hkj​]2)​=j∑​([Xij​−k∑​Wik​Hkj​])∂Wil​∂([Xij​−∑k​Wik​Hkj​])​=j∑​([Xij​−(WH)ij​])∂Wil​∂([Xij​−∑k​Wik​Hkj​])​=−j∑​([Xij​−(WH)ij​])∂Wil​∂(∑k​Wik​Hkj​])​=−j∑​([Xij​−(WH)ij​])Hlj​=−j∑​([Xij​−(WH)ij​])HjlT​=−(j∑​Xij​HjlT​−j∑​(WH)ij​HjlT​)=−[(XHT)jl​−(WHHT)ij​](17.28)​

步骤

本章概要

相关视频

李航统计学习之潜在语义分析LSA

相关的笔记

hktxt /Learn-Statistical-Learning-Method

相关代码

Dod-o /Statistical-Learning-Method_Code

电信保温杯笔记——《统计学习方法(第二版)——李航》第17章 潜在语义分析相关推荐

  1. 复现经典:《统计学习方法》​第17章 潜在语义分析

    第17章 潜在语义分析 本文是李航老师的<统计学习方法>一书的代码复现.作者:黄海广 备注:代码都可以在github中下载.我将陆续将代码发布在公众号"机器学习初学者" ...

  2. 《统计学习方法第二版》学习笔记1——概论

    第1章 统计学习及监督学习概率论 目录 第1章 统计学习及监督学习概率论 前言 1 理论部分 1.1 统计学习 1.2 统计学习的分类 1.3 统计学习方法三要素 1.4 模型评估与模型选择 1.5 ...

  3. 《统计学习方法第二版》学习笔记2——感知机

    第2章 感知机 目录 第2章 感知机 前言 1 理论部分 1.1 感知机模型 1.2 感知机学习策略 1.3 感知机算法 1.3.1 原始形式算法 1.3.2 对偶形式算法 2 代码部分 2.1 Pe ...

  4. 李航 统计学习方法 第二版 课后习题答案 机器学习

    李航<统计学习方法>课后习题答案(第2版)

  5. 统计学习方法第二版知识点合集 - 自用笔记

    第一篇 监督学习 第一章 统计学习及监督学习概论 1.1 统计学习 统计学习是关于计算机基于数据构建概率统计模型并运用模型对数据进行预测与分析的一门学科,也称统计机器学习,也就是我们俗称的机器学习. ...

  6. 李航 统计学习方法 第二版 课后习题答案

    第一章 第二章 1 第二章2 第三章 第四章 1 第四章 2 第五章 1 第五章 2 第六章 第七章 1 第七章 2

  7. 《统计学习方法(第二版)》学习笔记 第五章 决策树

    决策树 - ID3.C4.5.CART 对于决策树的学习,无论是ID3.C4.5和CART分类树还是CART回归树,其实都需要重点关注几个点: 数据集确定性的评价指标(信息增益.信息增益比.基尼指数. ...

  8. 电信保温杯笔记——《统计学习方法(第二版)——李航》第16章 主成分分析

    电信保温杯笔记--<统计学习方法(第二版)--李航>第16章 主成分分析 介绍 总体主成分分析 基本思路 直观解释 定义 主要性质 主成分个数 规范化变量 样本主成分分析 样本主成分的定义 ...

  9. 电信保温杯笔记——NLP经典论文:BERT

    电信保温杯笔记--NLP经典论文:BERT 论文 介绍 ELMo 对输入的表示 OpenAI GPT 对输入的表示 BERT 对输入的表示 模型结构 整体结构 输入 模型参数量 Input Embed ...

最新文章

  1. 韶音耳机连不上电脑_运动耳机什么牌子音质好,运动耳机品牌排行榜
  2. Effective C++学习第十一天
  3. setseed_Java Random setSeed()方法与示例
  4. hibernate、easyui、struts2整合
  5. cad 打开硬件加速卡_CAD卡顿?电脑带不动?几个简单实用的方法,解决CAD运行卡顿问题...
  6. Spark History Server配置及其启动
  7. SQL Server SQL语句调优技巧
  8. 斗鱼tv鸿蒙电视版,斗鱼直播鸿蒙版
  9. CRM给B2B企业带来的影响
  10. 我怎么就沦落到听新裤子的地步了呢?
  11. ks108x芯片使用体会
  12. Pandas_规整数据_转换数据_melt()
  13. CleanMyMac最新版V4.11.4版MAC电脑系统加速器
  14. Graphql是什么
  15. 2023最新SSM计算机毕业设计选题大全(附源码+LW)之java宠物医院管理系统fy9ez
  16. 用python计算准确率_Python下的scikit-learn预测准确率计算(代码实例)
  17. chmod 和 chown 命令用法
  18. Python 在线多人游戏开发教程 Day05#石头剪刀布游戏
  19. android获取4g网络ip,android 获取ip地址,获取2,3,4g,wifi状态等
  20. Android和iOS手机APP开发之间的差异

热门文章

  1. 戴尔准备通过收购扩大其云计算业务
  2. C/C++ 中文帮助文档
  3. 使用VS Code开发AngularJS 2 第一个应用程序
  4. vue3学习路程1——创建vue3项目
  5. showModalDialog打开窗口时不跳入新页面设置
  6. [转帖]计较,是贫穷的开始 鸡汤...
  7. 苹果改变手机型号_苹果的低碳铝将改变气候
  8. python资讯_python学习-WEB资讯专栏-DMOZ中文网站分类目录-免费收录各类优秀网站的中文网站目录....
  9. 解决最新的Chrome 7 不再支持CRX手动安装方法
  10. kde调整分辨率_7个很酷的KDE调整将改变您的生活