VSM模型与TF-IDF权重

VSM模型

向量空间模型(VSM，Vector Space Model)由Gerard Salton和McGill等在1969年提出。该模型将文本内容转换为易于数学处理的向量形式，并表示为多维空间中的一个点，把对文本内容的处理简化为向量空间中向量运算，使问题的复杂度大为降低使得各种相似计算和排序成为可能。

在向量空间模型中，文本空间被看作是由一组正交词条矢量所组成的矢量空问，每篇文本 d 表示为其中的一个范化矢量 V(d)=(t₁, w₁(d) ,…, t_n, w_n(d))，其中t_i为词条项，w_i(d) 表示词条t_i在文本d 中的权值，用于显示向量 t_i在文本 d 中的重要程度。可以将文本 d 中出现的所有词条作为 t_i，也可以要求 t_i是 d 中出现的所有短语，从而提高内容特征表示的准确性。w_i(d) 一般被定义为词条t_i在文本d 中的出现频率 tf_i(d) 的函数，w_i=f(tf_i(d))，常用的 f 函数有布尔函数、平方根函数、对数函数、TF-IDF函数等。

文本经过分词程序后，首先去除停用词，合并数字和人名等词汇，然后统计词频，最终表示为一个向量。

TF-IDF函数

TF-IDF函数用来表示特征项的重要程度，与特征项的重要性相关的两个重要因素是词频 TF(文本内频率)和逆文本频数 IDF(inverse documentfrequency)。

（1）词频(TF)：即一个特征项在某一文档中出现的次数，反映了某一个特征项对该文本的重要性，其定义如下所示：

TF_ij =freq_ij= 特征词 t_i在文档d_j中的频率

可利用对数降低词频对TF取值的影响，从而减少了少数高频词对特征权重计算的影响，如下所示：

TF_ij= log( freq_ij ) + 1

（2）倒文档频度(IDF)：这一分量反映了某一特征项区别于其他文档的程度，是一个关键词在整个数据全局中重要性的全局性统计特征，称为倒文档频度。如果一个词在整个数据全集中出现的频度很小，则它应该是反映包含该类词的文档内容的重要词汇。因此，一个关键词的权重应该与该词所在的文档的总数成反比或近似反比的关系。

IDF_i=log( n/n_i) =log(全集中文档的总数／含关键词i的文档总数)

其中：n 为全部训练样本数，n_i为出现特征词 t_i的训练样本数。它反映了某一特征项在分类过程中对某一类的区分度。

TF-IDF 公式认为对区别文档最有意义的特征项应该是那些在一类文档中出现频率足够高，而在文档集合的其他文档中出现频率足够小的词语，所以引入了逆文本频度 IDF 的概念，并以 TF 和 IDF 的乘积作为特征空间坐标系的取值测度。设TF_ij为特征词 t_i在文档 d_j中的频度；n 为全部训练样本数，n_i为出现特征词 t_i的训练样本数，TF-IDF 公式如下所示：

weight(T_ij) =TF_ijxIDF_i=freq_ijxlog(n/n_i)

TF-IDF主要基于以下两个理论依据：

(1)在一个文本中出现次数很多的单词，在另一个同类文本中出现的也会很多，反之亦然，所以将 TF(词频)作为测度;

(2)一个词条出现的文本频数越小，它区别不同类别的能力就越大，故引入了 IDF(逆文本频数)的概念。

下图为各单词的TF权重：

下图为各单词的TF-IDF权重：

参考资料：

TF-IDF及其算法

TF-IDF与向量空间模型