1、首先,Word2vec是词聚类,LDA是主题词聚类

2、也许在方法模型上,他们两者是不同的,但是产生的结果从语义上来说,都是相当于近义词的聚类,只不过LDA是基于隐含主题的,WORD2VEC是基于词的上下文的,或者说LDA关注doc和word的共现,而word2vec真正关注的是word和context的共现

3、更严谨的说,词向量所体现的是语义(semantic)和语法(syntactic)这些 low-level的信息。而LDA的主题词表现的是更 high-level的文章主题(topic)这一层的信息。比如:
1)计算词的相似度。同样在电子产品这个主题下,“苹果”是更接近于“三星”还是“小米”?
2)词的类比关系:vector(小米)- vector(苹果)+ vector(乔布斯)近似于 vector(雷军)。
3)计算文章的相似度。这个LDA也能做但是效果不好。而用词向量,即使在文章topic接近的情况下,计算出的相似度也能体现相同、相似、相关的区别。

反过来说,想用词向量的聚类去得到topic这一级别的信息也是很难的。很有可能,“苹果”和“小米”被聚到了一类,而“乔布斯”和“雷军”则聚到另一类。
这种差别,本质上说是因为Word2vec利用的是词与上下文的共现,而LDA利用的是词与文章之间的共现。
PS. 说起来,拿LDA和doc2vec比较才比较合理啊~~

4、word2vec+kmeans 和lda

word2vec+kmeans是先用word2vec把词表示为向量,然后用kmeans聚类,聚类的结果 应该是挺好的,但是和lda比,多了一些无用词的聚类,比如,我拿技术博客做预料,用lda聚类,聚出来的  都是技术相关的,因为lda是有个主题提取的过程;

而word2vec除了聚出一些技术的类,比如

结点
根节点
此树
结点数目
空树
子树中
子树结
叶子结点
子树
历根结
叶子
前趋
树上
第一棵
历树
二叉树
左子结
这棵
子树根
一棵
子树递
前驱
任一结
孩子
节点均
父节点
rightchild
后继结
树种
子结点
叶结点
右子树
三叉
左子树
这颗
整棵
兄弟结点
叶结
leftchild
满二叉
满二叉树
后继
整棵树
左子
叶子节点
rchild
孩子结点
树节点

fileinputstream
newfileinputstream
newfileoutputstream
fileoutputstream
向文件写入
输入流
readchar
inputstream
fos
outputstream
printstream
readbyte
readstring
filereader
printwriter
writeto
bufferreader
writer
reader
readlong
bufferedoutputstream
bufferedinputstream
bufferwriter
stringbufferinputstream
outstream
pushbackinputstream
instream
filewriter
raf
readline
datastream
stringreader
bytearrayinputstream
writelines
getchannel
dataoutputstream
filterreader
stringwriter
从文件
readbytes
datainputstream
bufferedreader
bytearrayoutputstream
streamwriter
writebytes
randomaccessfile

还聚出非技术类的

算出
加起来
求出
之和
算出来
就求
所求
求得
易得
减去
易知
无解
可得
题中
上数
则有
记为
数了
本题
数里
可求
找出
18次
种数
乘起来
连加
数算
求异
规律
乘积
算下
算过
凑出
二倍
理得
是多少
推求
数对
数模
0数
乘了
数遍
奇偶
累加
多解
数出
多1个推求

年度
五天
月初
上个月
7月
12月
09月
月底
月末
一个月
这一天
05月
31日
几月
一年
4月
10年
5日
11日
6日
当天
15日
那天
27日
第一年
14日
国庆节
上月
每年
13日
2013年
28日
7日
25号
5月
日子
今天是
4年
8日

开始我是不太理解,看了上面的原理解释,瞬间释怀,不得不说 word2vec聚相关的词还是很牛的

Word2vec与LDA的聚类区别相关推荐

  1. word2vec 和 doc2vec 相似和区别

    Word2vec 算法 CBOW 和 Skip-Gram模型 CBOW通过周围词找到当前词,Skip-Gram通过当前词找到周围词,都是使用评估概率找到概率最大的 doc2vec 在word2vec的 ...

  2. 【NLP】文本LDA主题聚类主题词生成PyLDAvis可视化

    [NLP]文本LDA主题聚类&主题词生成&可视化 LDA主题聚类 这是NLP中常用的一类方法,一般Sklearn,genism里有可以实现.一般结果会有文档-主题model(即说明每个 ...

  3. CountVectorizer,Tf-idfVectorizer和word2vec构建词向量的区别

    CountVectorizer和Tf-idfVectorizer构建词向量都是通过构建字典的方式,比如在情感分析问题中,我需要把每一个句子(评论)转化为词向量,这两种方法是如何构建的呢?拿CountV ...

  4. 用 word2vec 进行文档聚类

    在前面几篇文章中我们学习了 word2vec 的两种模型 CBOW 和 Skip-Gram,了解了它们的基本原理,数学思想,还有代码实现. word2vec 有很多优点,它的概念比较容易理解,训练速度 ...

  5. 分类聚类区别及聚类概述

    在初学分类聚类时,对这两个概念不是很了解.随着深入的了解,现有了一些基本的认识.现对聚类进行个人理解上的总结,欢迎大家批评指正. 一.分类和聚类的区别 分类和聚类的概念是比较容易混淆的. 对于分类来说 ...

  6. 利用word2vec对关键词进行聚类

    继上次提取关键词之后,项目组长又要求我对关键词进行聚类.说实话,我不太明白对关键词聚类跟新闻推荐有什么联系,不过他说什么我照做就是了. 按照一般的思路,可以用新闻ID向量来表示某个关键词,这就像广告推 ...

  7. python 文本分析 LDA 文本聚类

    文章目录 精简2.0版 精简1.0版 选择主题个数 困惑度.一致性 网页可视化 旧版本,啰嗦的代码 以中文为例 参考文档: python corpora.Dictionary corpus dicti ...

  8. 2020年数维杯数学建模A题舆情监测情感倾向分析建模求解全过程文档及程序

    2020年数维杯数学建模 A题 舆情监测情感倾向分析建模 原题再现:   公共危机事件爆发时,如拍石击水,相关信息在短时间内迅速传播,引起群众的广泛关注.其中负面报道或者主观片面的一些失实评判常常在一 ...

  9. 文本话题聚类(Kmeans/LDA)

    K-means 1 聚类是一种无监督的学习方法.聚类区别于分类,即事先不知道要寻找的内容,没有预先设定好的目标变量. 2 聚类将数据点归到多个簇中,其中相似的数据点归为同一簇,而不相似的点归为不同的簇 ...

最新文章

  1. 我是如何学会爱上 Vim 的
  2. MS SQL SERVER2005 分页存储过程
  3. php之判断点在多边形内的api
  4. 元计算:IT巨头的金钱收割机,核武器
  5. [设计模式]装饰模式
  6. Java web后端1 XML URI与URL HTTP Tomcat
  7. 数据库之SqlDataAdapter
  8. redis用HyperLogLog计算UV
  9. 双屏不同缩放比例_科技产品大赏,曲面、折叠手机之后,双屏电脑会是下一个趋势吗?...
  10. tar bz2 解压
  11. Phase2 DAY5 MyArrayList
  12. 《微观经济学》第五章弹性及其应用
  13. 刚体运动学公式_刚体的运动学与动力学问题 (二)
  14. wps中怎么在奇数页的页眉中设置整本书的标题,而在偶数页中设置该章的标题,同时请问怎样修改页码的字体?
  15. 类似组卷网实现快速组卷功能,实现试题,试卷,课件快速录入、搜索、分类查询,支持mathtype和latex2word。
  16. 陈强教授《机器学习及R应用》课程 第六章作业
  17. java 挑战性_想接受Java挑战吗?
  18. Java开发需要学什么!中原银行java面试题目
  19. Altium Designer 10 下载和安装破解教程
  20. img src .php 不显示,HTML中img标签src属性用PHP设置后不显示

热门文章

  1. 趣图:你永远想不到用户怎么使用你的产品
  2. 父窗口操控iframe
  3. Interlocked.Increment 方法 和Interlocked.Decrement 方法作用
  4. 论文笔记:主干网络——DenseNet
  5. 解读PMP考点:PMP考试中关于合同计算类型的题目
  6. From Oxygen:开心彩云之南
  7. 当免费模式遭遇安全价值观
  8. 在Python应用中Telegram 机器人搭建消息提醒
  9. cdr多页面排版_CDR排版跨页图片的制作方法
  10. 小技巧-不使用js制作高级足球比赛赛程表