文本表示(Text Representation)之词集模型(SOW)词袋模型(BOW)TF-IDF模型

转载请注明来源 http://blog.csdn.net/Recall_Tomorrow/article/details/79488639
欢迎大家查看这些模型简单实现的代码……
\ \ \ \ 对于一个包含若干个文档的语料库(Corpus)C={doc1,doc2,⋯,docm}C={doc1,doc2,⋯,docm}\mathcal C=\{doc_1, doc_2,\cdots,doc_m\},将其所有词条（Tokens）整合为一个大的词库(Lexicons)LCLC\mathcal L_{\mathcal C}，对于任意文档doci,i∈R+doci,i∈R+doc_i,i\in\mathbf R^+的分词结果(当然这里已经包括了NER、stopwords、lemmatization等预处理)为WiWi\mathcal W_i，那么文本表示为Vi，|Vi|=len(LC)Vi，|Vi|=len(LC)V_i，|V_i|=len(\mathcal L_{\mathcal C})

词集模型（Set of Words）

\ \ \ \ 对于文档docidocidoc_i的WiWi\mathcal W_i，如果词库中第j个token L(j)CLC(j)\mathcal L_{\mathcal C}^{(j)}出现在WiWi\mathcal W_i中，那么该文档此处的向量分量VijVij\mathbf V_{ij}就为1，否则就为0，即，

Vij={1,0,L(j)C∈Wielse, i∈R+,j∈[1,|len(LC)|]Vij={1,LC(j)∈Wi0,else,i∈R+,j∈[1,|len(LC)|]

\mathbf V_{ij}=\left\{\begin{array}{lr}1,&\mathcal L_{\mathcal C}^{(j)}\in \mathcal W_i\\ 0, &else\end{array}\right.,\ \ \ \ i\in\mathbf R^+,j\in[1, |len(\mathcal L_{\mathcal C})|]

词袋模型（Bag of Words）

\ \ \ \ 对于文档docidocidoc_i的WiWi\mathcal W_i，如果词库中第j个token L(j)CLC(j)\mathcal L_{\mathcal C}^{(j)}出现在WiWi\mathcal W_i中，那么该文档此处的向量分量VijVij\mathbf V_{ij}就为它的词频freq(L(j)CLC(j)\mathcal L_{\mathcal C}^{(j)})，否则就为0，即，

Vij={freqi(L(j)C),0,L(j)C∈Wielse, i∈R+,j∈[1,|len(LC)|]Vij={freqi(LC(j)),LC(j)∈Wi0,else,i∈R+,j∈[1,|len(LC)|]

\mathbf V_{ij}=\left\{\begin{array}{lr}freq_i(\mathcal L_{\mathcal C}^{(j)}),&\mathcal L_{\mathcal C}^{(j)}\in \mathcal W_i\\ 0, &else\end{array}\right.,\ \ \ \ i\in\mathbf R^+,j\in[1, |len(\mathcal L_{\mathcal C})|]

词频-逆文档频率（TF-IDF）

\ \ \ \ TF:(Term Frequency),衡量一个term在文档docidocidoc_i中出现的频率，

TFi(w)=term w在文档中出现的次数freqi(w)文档中term的总数|Wi|TFi(w)=termw在文档中出现的次数freqi(w)文档中term的总数|Wi|

TF_i(w)=\frac{term\ w在文档中出现的次数freq_i(w)}{文档中term的总数|\mathcal W_i|}
\ \ \ \ IDF:(Inverse Document Frequency),衡量某个term在语料库 CC\mathcal C中的重要性，

IDFi(w)=log文档总数|Ci|包含term w的文档数sum(I(w∈Cj))IDFi(w)=log⁡文档总数|Ci|包含termw的文档数sum(I(w∈Cj))

IDF_i(w)=\log\frac{文档总数|\mathcal C_i|}{包含term\ w的文档数sum(I(w\in\mathcal C_j))} 其中I(⋅)为指示函数(indicatorfunction)其中I(⋅)为指示函数(indicatorfunction)其中I(\cdot)为指示函数(indicator function )
TF−IDFi(w)=TFi(w)×IDFi(w)TF−IDFi(w)=TFi(w)×IDFi(w)\ \ \ \ TF-IDF_i(w)=TF_i(w)\times IDF_i(w)，即，

Vij=TF−IDFi(L(j)C), i∈R+,j∈[1,|len(LC)|]Vij=TF−IDFi(LC(j)),i∈R+,j∈[1,|len(LC)|]

V_{ij}=TF-IDF_i(\mathcal L_{\mathcal C}^{(j)}),\ \ i\in\mathbf R^+,j\in[1, |len(\mathcal L_{\mathcal C})|]