1 文本和词汇的矩阵

在自然语言处理中,最常见的两个分类问题分别是:将文本按主题归类(比如将所有介绍奥运会的新闻归到体育类)和将词汇表中的字词按意思归类(比如将各种运动的项目名称归成体育一类)。

新闻分类乃至各种分类问题其实是一个聚类问题,关键是计算两篇新闻的相似度。为了完成这个过程,我们要将新闻变成代表它们内容的实词,然后在变成一组数,具体说是向量,最后求出这两个问题的夹角。

奇异值分解(Singular Value Decomposition,简称 SVD),一次能把所有的新闻相关性计算出来。

在矩阵A中,每一行对应一篇文章,每一列对应一个词。其中,第 i 行、第 j 列的元素,是字典中第 j 个词在第 i 篇文章中出现的加权词频(比如用词的TF-IDF值)。共5000亿个元素。

奇异值分解,就是把大矩阵分解成三个小矩阵相乘。共1.5亿个元素,不到原来的三千分之一。

原书有点问题,还没得到证实:

矩阵X是对文本的分类结果,每一行对应一篇文本,每一列对应一个主题,这一行中每个元素表示这篇文档在不同主题中的相关性。

中间矩阵B表示文章的类和词的类之间的相关性。

矩阵Y是对词进行分类的一个结果,它的每一列表示一个词,每一行表示一个语义相近的词类,或者简称为语义类。这一列的每一个非零元素表示这个词在每个语义类中的重要性(或者说相关性),数值越大越相关。

因此,只要对关联矩阵A进行一次奇异值分解,就可以同时完成近义词分类和文章的分类。另外,还能得到每个主题和每个词的语义类之间的相关性。

2 奇异值分解的方法和应用场景

首先,将矩阵A变换成一个双对角矩阵。

第二步,将双对角矩阵变换成奇异值分解的三个矩阵。

《数学之美》第15章 矩阵运算和文本处理中的两个分类问题相关推荐

  1. 数学之美 第3章 统计语言模型

    数学之美 第3章 统计语言模型 回顾一下: 前面两章都是基础知识,告诉我们自然语言的起源基础,和一些发展过程遇到的问题,第二章告诉我们规则:理解自然语言(即分析语句和获取语义)这种处理方法不可能实现智 ...

  2. 《数学之美》——第九章 个人笔记

    数学之美 最近在读<数学之美>这本书,做一下个人笔记.看的是PDF,看完后会买一本的哦!版权意识还是有的. ps:图片文字都是这本书中的内容,侵权立删.会有点自己的理解. 第九章    图 ...

  3. 《数学之美》选章精读

    曾经花了一个月的时间阅读受推荐的书籍<数学之美>,对基于统计的自然语言处理的历史作一个大致的了解,每周精读一章,做下了一些粗略的笔记,算是有个交代吧. 第9章-图论和网络爬虫 概念 图论起 ...

  4. 《数学之美》——第一章 个人笔记

    数学之美 最近在读<数学之美>这本书,做一下个人笔记.看的是PDF,看完后会买一本的哦!版权意识还是有的. ps:图片文字都是这本书中的内容,侵权立删.会有点自己的理解. 第一章    文 ...

  5. 矩阵运算和文本处理中的分类问题

    我在大学学习线性代数时,实在想不出它除了告诉我们如何解线性方程外,还能有什么别的用途.关于矩阵的许多概念,比如特征值等等,更是脱离日常生活.后来在数值分析中又学了很多矩阵的近似算法,还是看不到可以应用 ...

  6. 《数学之美》第一章读后感

    第一章分别讲述了早期信息的传播,文字和数字的发展,文字和语言背后的数学三个部分. 我从中了解到了信息传递,不论是早期的远古社会,还是如今快速发展的互联网时代,其规律都是异曲同工的.比如信息传播的模型都 ...

  7. 《数学之美》中的模型及启示总结

    目录 初衷 文章编排 章节总结 第1章 文字和语言 vs 数字和信息 第2章 自然语言处理--从规律到统计 第3章 统计语言模型 第4章 谈谈中文分词 第5章 隐含马尔可夫模型 第6章 信息的度量和作 ...

  8. 书札《数学之美》(在读)

    文章目录 第1章 文字和语言 vs 数字和信息 第2章 自然语言处理--从规则到统计 第3章 统计语言模型 第4章 谈谈分词 viterbi 算法 第5章 隐含马尔科夫模型 第6章 信息的度量和作用 ...

  9. 数学之美-读书笔记11-15章

    文章目录 数学之美 第十一章 如何确定网页和查询的相关性 1搜索关键词权重的科学度量-TF-IDF 第十二章 有限状态机和动态规划-地图与本地搜索的核心技术 1地址分析和有限状态机 2全球导航和动态规 ...

最新文章

  1. 8086汇编语言精华笔记总结~
  2. addeventlistener事件第三个参数_简析JavaScript 事件绑定、事件冒泡、事件捕获和事件执行顺序...
  3. bcb中使用pas文件
  4. 停车场事故频频,AI 达人将摄像头变身安全卫士
  5. python导入包相当于什么_Python中使用语句导入模块或包的机制研究
  6. 软件设计师16-数据结构02(排序/查找)
  7. 维基解密:科技公司获得安全漏洞信息须答应几个条件
  8. @Controller
  9. python获取小程序手机号并绑定
  10. 公司收银系统要不要服务器,一套收银系统要多少成本
  11. Spring blunder
  12. 基于ThingsBoard二次开发的物联网平台ThingsKit-Link白皮书
  13. 蒙特卡罗(Monte Carlo)方法简介
  14. shell输出毫秒_Shell获取毫秒时间
  15. aps.net mysql_支持aps版
  16. 古墓丽影10linux,《古墓丽影11:暗影》Linux平台与Windows平台流畅度对比
  17. [ 利器篇 ] - 快速画一张UML序列图
  18. 此更新不适用您的计算机 win10,高手亲自讲解Win10系统提示此更新不适用于您的详尽处理办法...
  19. ubuntu18下载utuntu18镜像
  20. 融资融券五月试点 首批入选券商或增至5家

热门文章

  1. 解析全球人工智能核心脉络——北京智源大会2周倒计时
  2. 听说「面向对象是怎样工作的?」是一道送命题?| 7月书讯
  3. 直播 | Python Web开发者的破局之道
  4. iPhone开发四剑客之《Objective-C基础教程》
  5. TensorFlow数据归一化
  6. 浅谈对主成分分析(PCA)算法的理解
  7. 大脑也在强化学习!加州大学提出「价值决策」被大脑高效编码,登Neuron顶刊...
  8. 人工智能基准(Benchmarking)再思考
  9. 如何用R语言在机器学习中建立集成模型?
  10. 原创 | 一文了解边缘计算和边缘AI