向量空间模型(VSM)与TF-IDF
向量空间模型,可用于计算文本相似度。
首先我们希望将文章向量化。可以将一篇文章表示成从该文章抽取的关键词及其权重所构成的向量。
但如何提取文章的关键词和他的权重? e.g. TF-IDF(词频-逆文档频率)
当然首先我们要对文档向量降维:去除文章中的停用词,e.g. 的,这,那,是 …
然后:
第一步,计算词频:
或
第二步,计算逆文档频率:
即判断每个词在该文章中的重要程度(权重),若在本文中出现的多,而平时又不常见,则该词更能体现文章的特性,即越重要,如一文中中国和蜂蜜词频相同,中国更常见,故蜂蜜相对更能体现主题。
(已经提供了语料库)词约常见,分母越大,IDF越小,
第三步,计算TF-IDF:
TF−IDF=词频(TF)×逆文档频率(IDF)TF-IDF = 词频(TF) \times逆文档频率(IDF)TF−IDF=词频(TF)×逆文档频率(IDF)
以上
自动提取关键词的算法。计算每个词的TF-IDF值,按降序排列,取排在最前面的几个词。
「
用处:
1.自动提取文档关键词;
2.信息检索。对于每篇文档,计算搜索词的TF-IDF值,值最高的文档即为与搜索词最相关的文档。
缺点:词频衡量标准,不全面;忽略了词的位置信息(对全文第一段和每段第一句,给予较大权重)。
」
对文章进行向量空间建模
文本用D(Document)表示,特征项(Term)用 tit_iti 表示,即出现在文本D中且经过提取的能够代表D的内容的基本语言单位(方法e.g.e.g.e.g.TF-IDF)。于是文本可表示成D(t1t_1t1,t2t_2t2,…,tnt_ntn)。 通常在建立向量空间模型时,一般会给每个特征项一个权值来表示该特征项对该文本的重要性,常见的是取TF-IDF值(wiw_iwi)。
于是文章可用此向量表示:D(t1t_1t1,w1w_1w1,…,tnt_ntn,wnw_nwn) ,简化为D(w1w_1w1,w2w_2w2,…,wnw_nwn) . 文本的向量表示
e.g.e.g.e.g.
文档(d) \ 特征项(t) | a | b | c | d | e |
---|---|---|---|---|---|
d1 | 5.92 | 3.18 | 0 | 1.23 | 0 |
d2 | 2.34 | 2.73 | 0.4 | 3.2 | 3.1 |
d3 | 2.5 | 1.3 | 1.8 | 0 | 0 |
于是,每个文档都能被表示成维数为|n|的向量。
第j篇文档:dj=(w1w_1w1,w2w_2w2,…,wjw_jwj) ; queries(查询):q=(w1qw_{1q}w1q,w2qw_{2q}w2q,…,wnqw_{nq}wnq)
实际情况下特征项非常多,每个向量非常稀疏。
如何比较查询(queries)和文档(document)之间的相似度?
常见:余弦测量(cosin measure)
公式中的分母称作规范化因子(normalization factor),使文档得分不受文档长度的影响。
向量空间模型(VSM)与TF-IDF相关推荐
- 【转载】向量空间模型VSM及余弦计算
向量空间模型VSM及余弦计算 向量空间模型的基本思想是把文档简化为以特征项(关键词)的权重为分量的N维向量表示. 这个模型假设词与词间不相关(这个前提造成这个模型无法进行语义相关的判断,向量空间模型的 ...
- vsm java_向量空间模型(VSM)在文档相似度计算上的简单介绍
C#实现在: 向量空间模型(VSM:Vector space model)是最常用的相似度计算模型,在自然语言处理中有着广泛的应用,这里简单介绍一下其在进行文档间相似度计算时的原理. 假设共有十个词: ...
- 向量空间模型(VSM)的余弦定理公式(cos)
相信很多学习向量空间模型(Vector Space Model)的人都会被其中的余弦定理公式所迷惑.. 因为一看到余弦定理,肯定会先想起初中时的那条最简单的公式cosA=a/c(邻边比斜边),见下图: ...
- 向量空间模型(VSM)在文档相似度计算上的简单介绍
向量空间模型(VSM:Vector space model)是最常用的相似度计算模型,在自然语言处理中有着广泛的应用,这里简单介绍一下其在进行文档间相似度计算时的原理. 假设共有十个词:w1,w2 ...
- 向量空间模型(VSM)--用于计算文本相似度
向量空间模型将文档映射为一个特征向量V(d)=(t1,ω1(d):-:tn, ωn(d)),其中ti(i=1,2, -,n)为一列互不雷同的词条项,ωi(d)为ti在d中的权值, 一般被定义为ti在d ...
- 向量空间模型VSM—特征抽取算法—TF-IDF
原文作者:lucky小东西 原文地址:基于tf-idf的小说主题特征抽取算法 1.主题特征抽取做什么 在当前个性化推荐大行其道的时候,那就不得不提用户画像.用户画像的主要工作内容就是将用户标签化,对 ...
- spacevector=[] matlab,向量空间模型(vectorspacemodel)
向量空间模型(vector space model) 向量空间模型概念简单,把对文本内容的处理简化为向量空间中的向量运算,并且它以空间上的相似度表达语义的相似度,直观易懂.当文档被表示为文档空间的向量 ...
- 大数据入门10:向量空间模型(Vector Space Model)
文章目录 向量空间模型(Vector Space Model) 0. 概述 1. TF(Term frequency ,TF) 2. IDF(Inverse document frequency,ID ...
- 文本特征抽取的向量空间模型(VSM)和TF/IDF方法
文本特征抽取 两组小说,一组是爱情的,另一组是科幻的.我们能否用支持向量机训练一个模型,用来识别小说类型呢? 这个并不容易.因为支持向量机这类机器学习算法只能接受数学里面的向量作为输入.如果用它来做文 ...
- 经典检索模型——向量空间模型(VSM)的简单理解
笔者在课后作业中遇到了向量空间模型的概念题,对课堂重温后有了一些简单的理解,在此分享. 向量空间模型(VSM) 向量空间模型(Vector Space Model,VSM),是基于代数的一种常用模型. ...
最新文章
- 比较ArrayList、LinkedList、Vector
- lodash 提取前N个元素 take
- android加固多渠道,Android 多渠道打包(使用友盟统计,结合360加固宝进行多渠道打包)...
- 利用ajax技术 实现用户注册。
- android https bks,如何将.cer转换为BKS
- maven工程打包老是报错_maven工程pom文件老是报错
- 初学总结--------Java修饰符与修饰关键字(且叫修饰关键字)
- SQL Server数据同步的研究(单向/双向)
- 绿盟安全扫描--检测到目标站点存在javascript框架库漏洞
- python随机森林回归数据实战
- 【笔记整理】网络攻防技术
- VUE下载excel文件
- C77 - 不完全扫雷[不定期更新,全凭心情]
- Android APK签名工具
- 第一单元 用python学习微积分(三) 求导四则运算及三角函数(下)- 三角函数
- java获取一年的周数、单周开始时间与结束时间、一年所有周开始时间与结束时间、月开始时间与结束时间
- 数学分析 - 隐函数
- 正易判讀 6-1 韓長庚 著
- c语言顺时针打印数组,顺时针打印数组
- 案例分享 | TensorFlow 在贝壳找房中的实践