文本表示(Text Representation)之词集模型(SOW)词袋模型(BOW)TF-IDF模型
转载请注明来源 http://blog.csdn.net/Recall_Tomorrow/article/details/79488639
欢迎大家查看这些模型简单实现的代码……
\ \ \ \ 对于一个包含若干个文档的语料库(Corpus)C={doc1,doc2,⋯,docm}C={doc1,doc2,⋯,docm}\mathcal C=\{doc_1, doc_2,\cdots,doc_m\},将其所有词条(Tokens)整合为一个大的词库(Lexicons)LCLC\mathcal L_{\mathcal C},对于任意文档doci,i∈R+doci,i∈R+doc_i,i\in\mathbf R^+的分词结果(当然这里已经包括了NER、stopwords、lemmatization等预处理)为WiWi\mathcal W_i,那么文本表示为Vi,|Vi|=len(LC)Vi,|Vi|=len(LC)V_i,|V_i|=len(\mathcal L_{\mathcal C})
词集模型(Set of Words)
\ \ \ \ 对于文档docidocidoc_i的WiWi\mathcal W_i,如果词库中第j
个token L(j)CLC(j)\mathcal L_{\mathcal C}^{(j)}出现在WiWi\mathcal W_i中,那么该文档此处的向量分量VijVij\mathbf V_{ij}就为1,否则就为0,即,
\mathbf V_{ij}=\left\{\begin{array}{lr}1,&\mathcal L_{\mathcal C}^{(j)}\in \mathcal W_i\\ 0, &else\end{array}\right.,\ \ \ \ i\in\mathbf R^+,j\in[1, |len(\mathcal L_{\mathcal C})|]
词袋模型(Bag of Words)
\ \ \ \ 对于文档docidocidoc_i的WiWi\mathcal W_i,如果词库中第j
个token L(j)CLC(j)\mathcal L_{\mathcal C}^{(j)}出现在WiWi\mathcal W_i中,那么该文档此处的向量分量VijVij\mathbf V_{ij}就为它的词频freq(L(j)CLC(j)\mathcal L_{\mathcal C}^{(j)}),否则就为0,即,
\mathbf V_{ij}=\left\{\begin{array}{lr}freq_i(\mathcal L_{\mathcal C}^{(j)}),&\mathcal L_{\mathcal C}^{(j)}\in \mathcal W_i\\ 0, &else\end{array}\right.,\ \ \ \ i\in\mathbf R^+,j\in[1, |len(\mathcal L_{\mathcal C})|]
词频-逆文档频率(TF-IDF)
\ \ \ \ TF:(Term Frequency),衡量一个term在文档docidocidoc_i中出现的频率,
TF_i(w)=\frac{term\ w在文档中出现的次数freq_i(w)}{文档中term的总数|\mathcal W_i|}
\ \ \ \ IDF:(Inverse Document Frequency),衡量某个term在语料库 CC\mathcal C中的重要性,
IDF_i(w)=\log\frac{文档总数|\mathcal C_i|}{包含term\ w的文档数sum(I(w\in\mathcal C_j))} 其中I(⋅)为指示函数(indicatorfunction)其中I(⋅)为指示函数(indicatorfunction)其中I(\cdot)为指示函数(indicator function )
TF−IDFi(w)=TFi(w)×IDFi(w)TF−IDFi(w)=TFi(w)×IDFi(w)\ \ \ \ TF-IDF_i(w)=TF_i(w)\times IDF_i(w),即,
V_{ij}=TF-IDF_i(\mathcal L_{\mathcal C}^{(j)}),\ \ i\in\mathbf R^+,j\in[1, |len(\mathcal L_{\mathcal C})|]
文本表示(Text Representation)之词集模型(SOW)词袋模型(BOW)TF-IDF模型相关推荐
- 文本表征 Text Representation
基于 one-hot.tf-idf.textrank 等的 bag-of-words: 主题模型:LSA(SVD).pLSA.LDA: 基于词向量的固定表征:Word2vec.FastText.Glo ...
- 文本特征抽取的向量空间模型(VSM)和TF/IDF方法
文本特征抽取 两组小说,一组是爱情的,另一组是科幻的.我们能否用支持向量机训练一个模型,用来识别小说类型呢? 这个并不容易.因为支持向量机这类机器学习算法只能接受数学里面的向量作为输入.如果用它来做文 ...
- Python使用wordnet工具计算词集与词条基本用法(三)
这是一些其他的用法,包括 共同上位词 词集深度 词集相似度 相似词集 用法与示例 from nltk.corpus import wordnet as wnword = wn.synsets(&quo ...
- ORB-SLAM3中的词袋模型BoW
作者丨卢涛@知乎 来源丨https://zhuanlan.zhihu.com/p/354616831 编辑丨3D视觉工坊 非完整版注释:https://github.com/smilefacehh/O ...
- 文本深度表示模型——word2vecdoc2vec词向量模型(转)
from: https://www.cnblogs.com/maybe2030/p/5427148.html 阅读目录 1. 词向量 2.Distributed representation词向量表示 ...
- 文本深度表示模型—word2vecdoc2vec词向量模型
来源:http://www.dataguru.cn/article-9478-1.html 深度学习掀开了机器学习的新篇章,目前深度学习应用于图像和语音已经产生了突破性的研究进展.深度学习一直被人们推 ...
- 词集模型、词袋模型、词向量模型
分词与统计 词集模型(set of words): 单词构成的集合,集合里面的元素不重复,有且只有一个.所以该模型仅仅考虑词是否在文本中出现,不考虑词频,只需一维. 不足:一个词在文本在文本中出现1次 ...
- 机器学习基础(二)——词集模型(SOW)和词袋模型(BOW)
(1)词集模型:Set Of Words,单词构成的集合,集合自然每个元素都只有一个,也即词集中的每个单词都只有一个 (2)词袋模型:Bag Of Words,如果一个单词在文档中出现不止一次,并统计 ...
- 【Python自然语言处理】文本向量化的六种常见模型讲解(独热编码、词袋模型、词频-逆文档频率模型、N元模型、单词-向量模型、文档-向量模型)
觉得有帮助请点赞关注收藏~~~ 一.文本向量化 文本向量化:将文本信息表示成能够表达文本语义的向量,是用数值向量来表示文本的语义. 词嵌入(Word Embedding):一种将文本中的词转换成数字向 ...
最新文章
- Kafka分区分配策略(Partition Assignment Strategy)
- Solr所有的查询解析器Query Parsers(转:http://blog.csdn.net/jiangchao858/article/details/53859731)
- 全国一等奖,F题:智能送药小车。
- 浅谈auto_ptr智能指针
- Javascript、Dom、JQuery
- 前端学习(64):css继承属性小结
- CSS盒子的三种类型(border-box、content-box)
- android工程师入职必装软件
- python k线顶分型_顶分型底分型代码
- 什么是分布式查询mysql_基础普及之什么是分布式SQL
- ubuntu android驱动,ubuntu中正确设置android手机驱动程序
- 【编译原理】理解BNF
- python︱六款中文分词模块尝试:jieba、THULAC、SnowNLP、pynlpir、CoreNLP、pyLTP
- SuperSU下载 | SuperSU Download
- 写代码时切换insert键,用来解决光标小黑块问题
- 深入line-height,中线,基线,底线,顶线
- 华为工程师面试题库—通信类
- 博弈论学习(二)——完全信息静态博弈
- 论文阅读:Gradient Harmonized Single-stage Detector
- 微信公众号 手机充值 html,怎么实现通过微信公众号给会员卡充值?