自然语言处理期末复习(6)话题模型
一、LAS
1.向量空间模型通过计算文档向量间的相似度来衡量两个文档之间的相关性,常用的相似度为(夹角)余弦相似度。
2.LSA的核心在于将秩r的词项-文档矩阵C进行SVD分解,并寻求词项-文档矩阵的k秩逼近Ck 此时我们可以说,在进行潜在语义分析之前,文档被隐含表示成r维空间中的向量,而在潜在语义分析之后,文档被表示为k维空间中的向量,也就是潜在语义空间中的向量,向量的维数缩减为k维。
维数k可以被解释为隐含在文档集合中的话题数量,因此LSA可以被视作一种话题模型
3. LSA要点:
(1) 基于词(项)-文档矩阵归纳语义信息
(2) 基于维数缩减归纳语义信息
(3) 文档和词(项)被视作欧式空间中的点进行计算
二、概率话题模型
1. 混合模型(mixture model),分布表示为若干部件分布按照一定的比例进行组合。
(1) 文档是关于话题的分布, 不同文档拥有不同的话题比例p(z)。
(2) 话题是定义在词表上的概率分布p(w|z),不同的话题是定义在词表上的不同分布,与LSA不同,话题有着直观的物理解释。
话题模型是生成模型,文档是话题模型规定的概率过程的产物
(1) 对每一个文档,首先选择一个话题分布p(z)
(2) 对文档中的每一个词位,按照话题分布p(z)选择一个话题
(3) 按照话题-词分布p(w|z)选择一个词
• 在话题模型中,文档中每个词都对应着一个隐含的话题,这些隐含的话题可以通过统计推断的技术从大量的文档集合中提取得到。
2.pLSA是一种概率话题模型,LDA可视作是对pLSA的改进
– 文档视作话题的混合模型
– 话题视作词的不同分布
自然语言处理期末复习(6)话题模型相关推荐
- 自然语言处理期末复习(3)-(5)模型与句法分析
第三部分 隐马尔科夫模型与词类标注 1.定义:如果给定一个观察序列(不同颜色的小球序列),不能直接确定状态转换序列(坛子的序列),因为状态转移过程被隐藏起来了.所以这类随机过程被称为隐马尔科夫过程. ...
- 自然语言处理期末复习(7)平行文本与机器翻译
一.平行文本的自动对齐 1.按照语料库所涉语种,语料库可区分为(1)单语语料库 (2)多语语料库: 由多语平行文本组成 2.双语对齐处理在两种语言文本的不同语言单位之间建立对应关系,确定源语言文本中哪 ...
- 自然语言处理期末复习(1)n元模型
一.n元模型 1.语言建模:根据给定的语言样本估计概率P(s)的过程 2.语言模型:根据语言样本估计出的概率分布P称为语言L的语言模型. 3.马尔科夫假设:词wi 的出现只与其前n-1个词有关 4.n ...
- 自然语言处理期末复习(2)中文分词
1.汉语分词:通过计算机程序把组成汉语文本的字串自动转换 为词串的过程被称为自动切分 2.汉语切分的原因:(1)语音的合成(2)信息检索(3)词语计量分析 3.汉语分词基本方法:(1)基于词表的方法( ...
- 【期末复习】北京邮电大学《数字内容安全》课程期末复习笔记(5. 社交媒体安全)
[相关链接] [期末复习]北京邮电大学<数字内容安全>课程期末复习笔记(1. 绪论) [期末复习]北京邮电大学<数字内容安全>课程期末复习笔记(2. 信息隐藏与数字水印) [期 ...
- 人工智能及其应用(蔡自兴)期末复习
人工智能及其应用(蔡自兴)期末复习 原Markdown文件获取请跳转:https://github.com/anda522/CourseReview 相关资料: 人工智能期末复习 人工智能复习题 人工 ...
- 【postgresql数据库】数据库整体知识完整版-2023电子科技大学期末复习
<数据库>重要知识点 作者 内容 发布时间 博客地址 Github Trae1ounG 数据库复习 2023/6/3 Trae1ounG的博客_CSDN博客-软件测试,计算机组成原理,数据 ...
- 期末复习【嵌入式系统】
期末复习[嵌入式系统] 前言 推荐 期末复习 推荐 题型 押题 复习 总述 问题与思考: 教学内容介绍 问题与思考 第1章 嵌入式系统基础 问题与思考 1.1 引言 1.2 嵌入式系统的概述 1.2. ...
- 计算机英语复习,计算机英语期末复习
计算机英语期末复习 Unit 1data processing system 数据处理系统 digital computer数字计算机Integrated Circuit 集成电路 Very Larg ...
最新文章
- TensorFlow练习25: 使用深度学习做阅读理解+完形填空
- 极客Web前端开发资源大荟萃
- c语言程序中的基本功能,c语言程序中的基本功能模块为什么?
- opencv-python视频处理之白闪效果
- OpenGL画矩形,三角形,点(第一个图形学的小程序)
- 程序员的爱情独白(转)
- Win10系统鼠标滑轮灵敏度怎么设置
- SPH(光滑粒子流体动力学)流体模拟实现七:屏幕空间流体渲染(SSF)
- ajax success function_【java 基础】java-回调函数(结合jquery.ajax)
- SQLALchemy (ORM工具)[PostgreSQL为例]
- (通用版)salesforce中soql及sosl的伪‘Like’模糊检索
- 总结一下Android中主题(Theme)的正确玩法
- 一元三次方程求解C/C++
- java爬小说_java爬虫实战开发小说网站
- 绕过SSL双向校验抓取Soul App的数据包
- 软件性能测试模拟笔试题目
- 音视频开发(十九):运算符重载、继承、多态、模版
- 【凝水成冰】记学生事务系统的结构化
- strchr、strstr函数
- 什么样的人才是幸福的?
热门文章
- Nginx + CGI/FastCGI + C/Cpp(编不过去,不搞了。。。)(Common Gateway Interface)
- 怎么修改CSDN上传图片水印的字体大小?(去水印)
- Intel Realsense D435 python wrapper pyrealsense.pipeline类
- 利用卷积神经网络提取特征
- python——初识python篇
- Mocha and Diana (Easy Version) 并查集维护两片森林
- python辗转相除法求最大公约数的递归函数_Python基于辗转相除法求解最大公约数的方法示例...
- mybatis做批量删除时写SQL语句时遇到的问题
- 怎么查看oracle数据库表的主键,Oracle中查看所有的表,用户表,列名,主键,外键...
- securecrt 连接配置存放目录_SecureCRT 迁移到新环境,导出配置文件目录 转(示例代码)...