机器学习基础（二）——词集模型（SOW）和词袋模型（BOW）

（1）词集模型：Set Of Words，单词构成的集合，集合自然每个元素都只有一个，也即词集中的每个单词都只有一个
（2）词袋模型：Bag Of Words，如果一个单词在文档中出现不止一次，并统计其出现的次数（频数）

为文档生成对应的词集模型和词袋模型

考虑如下的文档：

dataset = [['my', 'dog', 'has', 'flea', 'problems', 'help', 'please'],['maybe', 'not', 'take', 'him', 'to', 'dog', 'park', 'stupid'],['my', 'dalmation', 'is', 'so', 'cute', 'I', 'love', 'him'],['stop', 'posting', 'stupid', 'worthless', 'garbage'],['mr', 'licks', 'ate', 'my', 'steak', 'how', 'to', 'stop', 'him'],['quit', 'buying', 'worthless', 'dog', 'food', 'stupid']]

list of lists 的每一行表示一个文档；

第一步：生成词汇表

vocabSet = set()
for doc in dataset:vocabSet |= set(doc)
vocabList = list(vocabSet)

为每一个文档创建词集向量/词袋向量

# 词集模型
SOW = []
for doc in dataset:vec = [0]*len(vocabList)for i, word in enumerate(vocabList):if word in doc:vec[i] = 1SOW.append(doc) # 词袋模型
BOW = []
for doc in dataset:vec = [0]*len(vocabList)for word in doc:vec[vocabList.index[word]] += 1BOW.append(vec)

机器学习基础（二）——词集模型（SOW）和词袋模型（BOW）相关推荐

词袋模型BoW和词集模型SoW比较
Bag-of-Words词袋模型,经常用在自然语言处理和信息检索当中.在词袋模型中,一篇文本(文章)被表示成"装着词的袋子",也就是说忽略文章的词序和语法,句法;将文章看做词的组合 ...
文本表示(Text Representation)之词集模型(SOW)词袋模型(BOW)TF-IDF模型
转载请注明来源 http://blog.csdn.net/Recall_Tomorrow/article/details/79488639 欢迎大家查看这些模型简单实现的代码-- \ \ \ ...
词集模型、词袋模型、词向量模型
分词与统计词集模型(set of words): 单词构成的集合,集合里面的元素不重复,有且只有一个.所以该模型仅仅考虑词是否在文本中出现,不考虑词频,只需一维. 不足:一个词在文本在文本中出现1次 ...
使用gensim框架及Word2Vec词向量模型获取相似词
使用gensim框架及Word2Vec词向量模型获取相似词预备知识 Word2Vec模型下载加载词向量模型预备知识 gensim框架 gensim是基于Python的一个框架,它不但将Pytho ...
「超级干货大放送」机器学习十二种经典模型实例
目录实例一:线性回归波士顿房价实例二:KNN实现电影分类实例三:基于线性回归预测波士顿房价实例四:sklearn完成逻辑回归鸢尾花分类实例五:支持向量机完成逻辑回归鸢尾花分类实例六:使 ...
利用gensim构建word2vec词向量模型并保存词向量
利用gensim包的word2vec模块构建CBOW或Skip-Gram模型来进行词向量化比较方便. 具体gensim.models.Word2Vec模型的参数可以看官网介绍: https://rad ...
【机器学习基础】线性基函数模型
本系列为<模式识别与机器学习>的读书笔记. 一,线性基函数模型 1,线性基函数回归问题的⽬标是在给定 D D D 维输⼊(input) 变量 x \boldsymbol{x} x 的情况 ...
【NLP】⚠️学不会打我! 半小时学会基本操作 2⚠️词向量模型简介
[NLP]⚠️学不会打我! 半小时学会基本操作 2⚠️词向量模型简介概述词向量维度 Word2Vec CBOW 模型 Skip-Gram 模型负采样模型词向量的训练过程 1. 初始化词向量矩阵 ...
8.词袋和词向量模型
1.非结构化数据转换为词袋和词向量模型文本数据(非结构化数据)转换成计算机能够计算的数据.有两种常用的模型:词袋和词向量模型. 2.词袋模型(Bag of Words Model) 词袋模型看起来好 ...

机器学习基础（二）——词集模型（SOW）和词袋模型（BOW）

为文档生成对应的词集模型和词袋模型

机器学习基础（二）——词集模型（SOW）和词袋模型（BOW）相关推荐

最新文章

热门文章