• (1)词集模型:Set Of Words,单词构成的集合,集合自然每个元素都只有一个,也即词集中的每个单词都只有一个
  • (2)词袋模型:Bag Of Words,如果一个单词在文档中出现不止一次,并统计其出现的次数(频数)

为文档生成对应的词集模型和词袋模型

考虑如下的文档:

dataset = [['my', 'dog', 'has', 'flea', 'problems', 'help', 'please'],['maybe', 'not', 'take', 'him', 'to', 'dog', 'park', 'stupid'],['my', 'dalmation', 'is', 'so', 'cute', 'I', 'love', 'him'],['stop', 'posting', 'stupid', 'worthless', 'garbage'],['mr', 'licks', 'ate', 'my', 'steak', 'how', 'to', 'stop', 'him'],['quit', 'buying', 'worthless', 'dog', 'food', 'stupid']]

list of lists 的每一行表示一个文档;

第一步:生成词汇表

vocabSet = set()
for doc in dataset:vocabSet |= set(doc)
vocabList = list(vocabSet)

为每一个文档创建词集向量/词袋向量

# 词集模型
SOW = []
for doc in dataset:vec = [0]*len(vocabList)for i, word in enumerate(vocabList):if word in doc:vec[i] = 1SOW.append(doc) # 词袋模型
BOW = []
for doc in dataset:vec = [0]*len(vocabList)for word in doc:vec[vocabList.index[word]] += 1BOW.append(vec)

机器学习基础(二)——词集模型(SOW)和词袋模型(BOW)相关推荐

  1. 词袋模型BoW和词集模型SoW比较

    Bag-of-Words词袋模型,经常用在自然语言处理和信息检索当中.在词袋模型中,一篇文本(文章)被表示成"装着词的袋子",也就是说忽略文章的词序和语法,句法;将文章看做词的组合 ...

  2. 文本表示(Text Representation)之词集模型(SOW)词袋模型(BOW)TF-IDF模型

    转载请注明来源 http://blog.csdn.net/Recall_Tomorrow/article/details/79488639 欢迎大家查看这些模型简单实现的代码--     \ \ \ ...

  3. 词集模型、词袋模型、词向量模型

    分词与统计 词集模型(set of words): 单词构成的集合,集合里面的元素不重复,有且只有一个.所以该模型仅仅考虑词是否在文本中出现,不考虑词频,只需一维. 不足:一个词在文本在文本中出现1次 ...

  4. 使用gensim框架及Word2Vec词向量模型获取相似词

    使用gensim框架及Word2Vec词向量模型获取相似词 预备知识 Word2Vec模型下载 加载词向量模型 预备知识 gensim框架 gensim是基于Python的一个框架,它不但将Pytho ...

  5. 「超级干货大放送」机器学习十二种经典模型实例

    目录 实例一:线性回归波士顿房价 实例二:KNN实现电影分类 实例三:基于线性回归预测波士顿房价 ​ 实例四:sklearn完成逻辑回归鸢尾花分类 实例五:支持向量机完成逻辑回归鸢尾花分类 实例六:使 ...

  6. 利用gensim构建word2vec词向量模型并保存词向量

    利用gensim包的word2vec模块构建CBOW或Skip-Gram模型来进行词向量化比较方便. 具体gensim.models.Word2Vec模型的参数可以看官网介绍: https://rad ...

  7. 【机器学习基础】线性基函数模型

    本系列为<模式识别与机器学习>的读书笔记. 一,线性基函数模型 1,线性基函数 回归问题的⽬标是在给定 D D D 维输⼊(input) 变量 x \boldsymbol{x} x 的情况 ...

  8. 【NLP】⚠️学不会打我! 半小时学会基本操作 2⚠️词向量模型简介

    [NLP]⚠️学不会打我! 半小时学会基本操作 2⚠️词向量模型简介 概述 词向量维度 Word2Vec CBOW 模型 Skip-Gram 模型 负采样模型 词向量的训练过程 1. 初始化词向量矩阵 ...

  9. 8.词袋和词向量模型

    1.非结构化数据转换为词袋和词向量模型 文本数据(非结构化数据)转换成计算机能够计算的数据.有两种常用的模型:词袋和词向量模型. 2.词袋模型(Bag of Words Model) 词袋模型看起来好 ...

最新文章

  1. Datawhale数据分析教程来了!
  2. 创建快捷方式命令_如何使用桌面快捷方式运行命令提示符命令
  3. Linux的phpize添加php扩展
  4. 使用C#快速生成顺序GUID
  5. 吴恩达《机器学习》学习笔记十二——机器学习系统
  6. 用Python标准库turtle画一头金牛,祝您新年牛气冲天!
  7. NSInvocation的一种用法
  8. JAVA输出最大值和最小值
  9. vtd xml java_新兴XML处理方法VTD-XML介绍
  10. 云杰恒指:8.30恒指期货早盘资讯
  11. 我的世界基岩版红石教程(超简单)2
  12. React父组件调用子组件的方法【class组件和函数组件】
  13. 深圳成为乌拉圭智慧城市解决方案输出地
  14. 极路由X(C526A)刷Openwrt 18.06固件(2021-12-12亲测)
  15. 安装php_soap.dll,php如何安装soap扩展
  16. neu ikobikob
  17. PAT for Java:01-害死人不偿命的(3n+1)猜想:卡拉兹(Callatz)猜想
  18. 谈我的算法工程师校招经历
  19. BmS电池管理系统源码,包括源理图,BOM,源码
  20. 某赛一道misc_gif隐写_rar密码暴力破解_AAencode

热门文章

  1. unet服务器向客户端发消息,unet
  2. 计算机应用技术参加文献,面向科技文献的机器翻译(4)-计算机应用技术专业毕业论文.docx...
  3. CUDA算法——Stream and Event
  4. 概率论概念及机器学习中样本相似性度量之马氏距离
  5. C/C++文件操作效率比较——FILE/fstream
  6. 数据挖掘:数据清洗——异常值处理
  7. pip install rrdtool
  8. 20165332第六周学习总结
  9. 兄弟连学python(4)——Css选择器
  10. tomcat使用安全及CVE-2017-12615