1、关于gensim LDA主题模型网上有个简单的的例子:http://blog.itpub.net/16582684/viewspace-1253901/我也用来在自己集子上试验了下效果。

我的数据来自呼叫中心的客服数据,类似移动联通电信中客服数据。

gensim+TFIDF
0.002*毛二给 + 0.002*包五 + 0.002*那打 + 0.001*英国 + 0.001*加过 + 0.001*23点 + 0.001*拨号键 + 0.001*一巷 + 0.001*22号 + 0.001*毛八分
0.003*激活 + 0.003*备卡 + 0.002*备份 + 0.002*兆来 + 0.002*为期 + 0.002*短信中心 + 0.002*19号 + 0.002*法国 + 0.001*卡 + 0.001*通讯录
0.002*日一笑 + 0.001*大众卡 + 0.001*user + 0.001*no + 0.001*天会 + 0.001*400元 + 0.001*重开 + 0.001*刚开始 + 0.001*兆是 + 0.001*御
0.002*江苏省 + 0.002*畅游 + 0.002*转至 + 0.001*宽带 + 0.001*五毛钱 + 0.001*号段 + 0.001*匹配 + 0.001*订单 + 0.001*一通 + 0.001*联系
0.003*台湾 + 0.002*点播 + 0.002*更新 + 0.002*软件 + 0.002*处理 + 0.002*自然 + 0.002*手机 + 0.002*反映 + 0.002*宽带 + 0.002*PUK
0.008*毛 + 0.007*打 + 0.005*上海 + 0.005*优惠 + 0.005*开通 + 0.005*免费 + 0.004*取消 + 0.004*套餐 + 0.004*一块钱 + 0.004*直拨
0.002*参数设置 + 0.002*期待 + 0.002*转给 + 0.001*小说 + 0.001*么快 + 0.001*包打 + 0.001*短信吧 + 0.001*请见 + 0.001*新干线 + 0.001*搞笑
0.002*0.0005元 + 0.002*优惠活动 + 0.001*风景 + 0.001*少于 + 0.001*16号 + 0.001*拨出去 + 0.001*群发 + 0.001*七五 + 0.001*26元 + 0.001*月对吧
0.002*毛八给 + 0.002*户名 + 0.002*兆加 + 0.001*家住 + 0.001*宽带 + 0.001*汉字 + 0.001*发布 + 0.001*G + 0.001*下吧 + 0.001*折
0.009*流量 + 0.008*兆 + 0.006*套餐 + 0.006*G + 0.005*密码 + 0.005*月 + 0.005*开通 + 0.004*号码 + 0.004*短信 + 0.004*卡
gensim
0.092*是 + 0.036*就是 + 0.027*打 + 0.025*套餐 + 0.020*没有 + 0.020*可以 + 0.019*月 + 0.018*有 + 0.018*话 + 0.015*毛
0.044*可以 + 0.038*是 + 0.033*帮 + 0.032*密码 + 0.025*号码 + 0.020*要 + 0.020*知道 + 0.020*身份证 + 0.018*就是 + 0.017*没有
0.079*流量 + 0.074*是 + 0.074*兆 + 0.028*就是 + 0.020*可以 + 0.020*有 + 0.020*帮 + 0.019*套餐 + 0.015*没有 + 0.015*话
0.065*是 + 0.027*就是 + 0.026*有 + 0.024*说 + 0.024*没有 + 0.023*帮 + 0.018*手机 + 0.014*可以 + 0.012*看 + 0.012*话
0.046*是 + 0.032*帮 + 0.028*可以 + 0.026*短信 + 0.021*开通 + 0.021*手机 + 0.020*没有 + 0.016*功能 + 0.015*就是 + 0.014*谢谢
0.077*是 + 0.030*没有 + 0.026*说 + 0.024*就是 + 0.023*有 + 0.019*号码 + 0.015*要 + 0.013*打 + 0.012*可以 + 0.012*看
0.054*取消 + 0.038*帮 + 0.034*是 + 0.029*可以 + 0.021*包 + 0.021*没有 + 0.020*还有 + 0.015*掉 + 0.015*谢谢 + 0.014*再见
0.018*是 + 0.014*G + 0.013*就是 + 0.010*有 + 0.010*PUK + 0.009*码 + 0.008*没有 + 0.007*可以 + 0.006*说 + 0.006*卡
0.087*G + 0.070*是 + 0.034*就是 + 0.034*流量 + 0.032*卡 + 0.029*可以 + 0.024*手机 + 0.019*套餐 + 0.018*有 + 0.017*换
0.062*是 + 0.036*月 + 0.033*就是 + 0.025*可以 + 0.021*充 + 0.020*有 + 0.020*没有 + 0.018*套餐 + 0.016*消费 + 0.016*要
gensim+挑选出动词和名词
0.046*帮 + 0.029*手机 + 0.025*流量 + 0.025*上网 + 0.021*没有 + 0.018*有 + 0.017*看 + 0.017*功能 + 0.012*关掉 + 0.011*到
0.055*开通 + 0.038*帮 + 0.030*密码 + 0.024*套餐 + 0.021*知道 + 0.017*生效 + 0.017*没有 + 0.017*流量 + 0.016*再见 + 0.016*开
0.039*月 + 0.030*充 + 0.024*有 + 0.024*消费 + 0.023*活动 + 0.021*话费 + 0.020*送 + 0.018*没有 + 0.018*号码 + 0.017*到
0.054*兆 + 0.051*流量 + 0.041*密码 + 0.039*帮 + 0.022*知道 + 0.022*没有 + 0.018*月 + 0.017*有 + 0.017*五块钱 + 0.017*包
0.045*套餐 + 0.029*月 + 0.028*没有 + 0.028*打 + 0.023*流量 + 0.021*有 + 0.021*毛 + 0.020*帮 + 0.017*兆 + 0.014*上海
0.033*号码 + 0.032*打 + 0.027*没有 + 0.025*帮 + 0.021*电话 + 0.018*手机 + 0.016*有 + 0.014*卡 + 0.013*知道 + 0.011*到
0.098*G + 0.050*流量 + 0.031*卡 + 0.028*有 + 0.027*套餐 + 0.025*手机 + 0.021*没有 + 0.019*兆 + 0.018*换 + 0.012*网络
0.051*取消 + 0.051*帮 + 0.024*业务 + 0.022*没有 + 0.021*有 + 0.018*掉 + 0.018*手机 + 0.016*费用 + 0.016*看 + 0.013*月
0.044*没有 + 0.036*有 + 0.020*帮 + 0.018*短信 + 0.017*手机 + 0.016*看 + 0.015*到 + 0.012*查 + 0.012*问题 + 0.011*扣
0.027*兑换 + 0.024*积分 + 0.022*有 + 0.018*打 + 0.013*短信 + 0.012*看 + 0.012*帮 + 0.009*没有 + 0.008*手机 + 0.007*号码
gensim+挑选出动词和名词+TFIDF
0.008*流量 + 0.007*兆 + 0.006*G + 0.005*月 + 0.005*充 + 0.005*套餐 + 0.005*卡 + 0.004*号码 + 0.004*话费 + 0.004*扣
0.010*套餐 + 0.009*毛 + 0.008*兆 + 0.008*流量 + 0.007*取消 + 0.007*打 + 0.006*生效 + 0.006*开通 + 0.006*密码 + 0.006*免费
0.002*毛八给 + 0.002*被盗 + 0.002*家住 + 0.002*19号 + 0.002*遗失 + 0.001*酷派 + 0.001*星符 + 0.001*纸制 + 0.001*呢会 + 0.001*禁止
0.012*激活 + 0.005*卡 + 0.004*呼叫 + 0.004*G + 0.004*备份 + 0.003*星号 + 0.002*功能 + 0.002*开通 + 0.002*键 + 0.002*三井
0.005*韩国 + 0.003*国际漫游 + 0.003*WCDMA + 0.003*请注意 + 0.001*制式 + 0.001*漫游 + 0.001*包打 + 0.001*关闭 + 0.001*国际 + 0.001*两号
0.003*广东 + 0.003*好知道了 + 0.002*好问 + 0.002*兆也 + 0.002*阜南 + 0.001*新加坡 + 0.001*忘掉 + 0.001*英国 + 0.001*方式给 + 0.001*浙江省
0.002*中国电信 + 0.001*么可 + 0.001*上网本 + 0.001*美女 + 0.001*刚开始 + 0.001*user + 0.001*no + 0.001*抵消 + 0.001*回执 + 0.001*进来了
0.009* + 0.002*0.0005元 + 0.002*参数设置 + 0.002*移动梦网 + 0.001*23点 + 0.001*都帮我 + 0.001*打掉 + 0.001*猫 + 0.001*关下 + 0.001*十分满意
0.002*季度 + 0.002*仅供 + 0.002*黑名单 + 0.001*CMCC + 0.001*福建省 + 0.001*标识 + 0.001*改动 + 0.001*球 + 0.001*数据包 + 0.001*那帮我
0.007*功能 + 0.007*国际漫游 + 0.006*开通 + 0.005*上网 + 0.005*密码 + 0.005*短信 + 0.005*关机 + 0.005*手机 + 0.004*关闭 + 0.004*漫游

2、根据http://gensim.narkive.com/eGrph9ii/gensim-3348-confused-about-the-eta-param-of-lda设置eta参数可以加强某些word的置信度。
gensim+挑选出动词和名词+TFIDF+eta(666666666666666)
0.006*卡 + 0.006*G + 0.005*激活 + 0.004*手机 + 0.003*问题 + 0.003*信号 + 0.003*网络 + 0.003*关机 + 0.003*换 + 0.003*反映
0.006* + 0.002*国际漫游 + 0.002*韩国 + 0.001*澳门 + 0.001*德国 + 0.001*好了可 + 0.001*井键 + 0.001*国际 + 0.001*漫游 + 0.001*转至
0.008*流量 + 0.008*兆 + 0.006*套餐 + 0.006*密码 + 0.005*月 + 0.005*开通 + 0.005*取消 + 0.005*G + 0.004*号码 + 0.004*短信
0.001*英国 + 0.001*识别 + 0.001*兆从 + 0.001*一巷 + 0.001*老年 + 0.001*no + 0.001*user + 0.001*年限 + 0.001*那行行 + 0.001*寻的
0.001*福建 + 0.001*畅游 + 0.001*0.0005元 + 0.001*都帮我 + 0.001*日一笑 + 0.001*么发 + 0.001*加对 + 0.001*兆先生 + 0.001*请见 + 0.001*兆
0.010*毛 + 0.008*打 + 0.006*上海 + 0.005*优惠 + 0.005*套餐 + 0.005*开通 + 0.005*漫游 + 0.005*直拨 + 0.004*市话 + 0.004*免费

3、根据论文《Incorporatiing lexical priors into topic models》中加入seed,使用开源代码进行实验。

实验补充:

Arguments:
Number of words      W = 32986
Number of docs       D = 15798
Number of topics     T = 6
Number of iterations N = 100
Hyperparameter   ALPHA = 1.0000
Hyperparameter    BETA = 0.0100
Seed number            = 6
Number of tokens       = 1607284
Determining random order update sequence
Iter:20x:50x100x 0 /100, perp... (train) 796.515713 Entropy (k|d): 1.759740 (w|k): 5.513596
Iter:20x:50x100x 100 /100, perp... (train) 608.646998 Entropy (k|d): 0.966013 (w|k): 4.928071
Topic:0
套餐 --> 1.999451e-01
查 --> 7.497942e-02
冲抵 --> 2.675834e-02
设立 --> 2.537794e-02
月租 --> 2.499316e-02
晓东 --> 2.150507e-02
应 --> 1.907819e-02
应为 --> 1.603117e-02
福建厦门 --> 1.566743e-02
拨就延长路 --> 1.443909e-02
后手 --> 1.397398e-02
新朋友 --> 1.289172e-02
1.5元 --> 1.246836e-02
小薇 --> 1.135331e-02
编辑 --> 9.907316e-03
才会算 --> 9.752282e-03
反 --> 9.382585e-03
后所 --> 8.899593e-03
泰和系统 --> 7.543044e-03
山田路 --> 7.340307e-03
业务五元 --> 7.262790e-03
路21号 --> 6.797687e-03
宝山会 --> 6.615820e-03
是长江 --> 6.436934e-03
我我浙江省 --> 6.425009e-03
二部 --> 6.293826e-03
八连 --> 5.423249e-03
看下 --> 5.348713e-03
我店 --> 5.280140e-03
涉 --> 5.259270e-03

Topic:1
网 --> 8.567395e-02
GPRS --> 8.567395e-02
流量 --> 8.567395e-02
GPS --> 4.283699e-02
需求量 --> 4.135685e-02
贾夏兴村 --> 3.189201e-02
咣 --> 1.775544e-02
应 --> 1.731508e-02
后手 --> 1.620572e-02
后所 --> 1.529678e-02
太公 --> 1.388538e-02
那那就我有 --> 1.007178e-02
福建厦门 --> 1.006049e-02
畅号 --> 9.538269e-03
夏对 --> 9.001937e-03
园田 --> 7.387296e-03
看下 --> 6.890484e-03
泰和系统 --> 6.695711e-03
重新考虑 --> 6.667483e-03
多通讯 --> 6.320278e-03
那我银行 --> 6.308987e-03
归整 --> 5.891213e-03
那五毛 --> 5.879922e-03
宝山会 --> 5.803706e-03
18块对吧 --> 5.301248e-03
冲抵 --> 5.016145e-03
二部 --> 4.925816e-03
看么 --> 4.810081e-03
夏区 --> 4.615308e-03
我我浙江省 --> 4.581434e-03

Topic:2
机型 --> 2.157770e-01
参加 --> 4.736570e-02
应 --> 2.551446e-02
后手 --> 2.440216e-02
福建厦门 --> 1.968480e-02
看么 --> 1.742961e-02
品牌 --> 1.578858e-02
咣 --> 1.337998e-02
归整 --> 1.304521e-02
最低 --> 1.052573e-02
营销 --> 1.052573e-02
信线路 --> 9.389750e-03
五福 --> 9.350154e-03
成都贵阳 --> 9.229565e-03
太公 --> 9.198968e-03
月里 --> 8.282852e-03
畅号 --> 7.917486e-03
欣欣 --> 6.452422e-03
冲抵 --> 6.396627e-03
宝山会 --> 6.373229e-03
我我浙江省 --> 6.189646e-03
中对移动 --> 5.626298e-03
开学 --> 5.322126e-03
时都三 --> 5.201537e-03
遭遇 --> 5.068350e-03
有线有线 --> 4.821773e-03
月业务 --> 4.283622e-03
项好七 --> 4.265624e-03
多块都有 --> 4.208029e-03
路名 --> 4.190031e-03

Topic:3
两城 --> 1.874227e-01
全球通 --> 1.124537e-01
看书 --> 6.279950e-02
负 --> 5.185208e-02
晓东 --> 3.021632e-02
福建厦门 --> 2.331408e-02
贾夏兴村 --> 2.049902e-02
应 --> 1.472653e-02
应为 --> 1.469152e-02
后手 --> 1.393290e-02
活业务 --> 1.352442e-02
设立 --> 1.245768e-02
太公 --> 1.112952e-02
才会算 --> 1.109217e-02
宝山会 --> 9.976423e-03
少了点 --> 9.929739e-03
泰和系统 --> 9.588945e-03
反 --> 8.645926e-03
二部 --> 7.639883e-03
是长江 --> 7.539512e-03
夏区 --> 7.336436e-03
山田路 --> 7.007313e-03
畅号 --> 6.694529e-03
新朋友 --> 5.800529e-03
交出去 --> 5.753845e-03
归整 --> 5.732837e-03
语 --> 5.333687e-03
营业厅补点 --> 5.310345e-03
信线路 --> 5.139948e-03
华昌 --> 4.890188e-03

Topic:4
集团 --> 1.581724e-01
取消 --> 8.181330e-02
福建厦门 --> 3.417926e-02
少了点 --> 2.802261e-02
后所 --> 2.474913e-02
积分 --> 2.181690e-02
咣 --> 1.872638e-02
反 --> 1.842439e-02
宝山会 --> 1.701699e-02
阅读 --> 1.636268e-02
应 --> 1.513667e-02
泰和系统 --> 1.405690e-02
月里 --> 1.307400e-02
二部 --> 1.114524e-02
当时 --> 1.103413e-02
涉 --> 1.102559e-02
太公 --> 1.091733e-02
家庭 --> 1.090847e-02
开通 --> 1.090847e-02
多通讯 --> 8.851814e-03
畅号 --> 7.886009e-03
新朋友 --> 7.777748e-03
后手 --> 7.655242e-03
看么 --> 7.316213e-03
归整 --> 7.304817e-03
交出去 --> 6.150980e-03
保保证 --> 5.803404e-03
一蚌埠市区 --> 5.569787e-03
发一158月号 --> 5.529902e-03
宋宋 --> 5.396000e-03

Topic:5
卡 --> 9.994510e-02
乱 --> 9.994510e-02
扣 --> 9.994510e-02
煤厂 --> 3.557003e-02
应为 --> 3.409586e-02
夏区 --> 2.337523e-02
后手 --> 1.973358e-02
国航 --> 1.831049e-02
么去实 --> 1.798573e-02
应 --> 1.783247e-02
客户号 --> 1.581460e-02
畅号 --> 1.378579e-02
设立 --> 1.142491e-02
信线路 --> 1.130085e-02
晓东 --> 1.117313e-02
归整 --> 9.111477e-03
福建厦门 --> 8.655358e-03
资料都点 --> 8.053280e-03
笔调 --> 6.965892e-03
看么 --> 6.418549e-03
咣 --> 6.261645e-03
五福 --> 6.177719e-03
后所 --> 6.170421e-03
园田 --> 5.721599e-03
东阳县 --> 5.648620e-03
看下 --> 5.582939e-03
泰和系统 --> 5.371300e-03
月里 --> 5.072086e-03
古城 --> 4.948021e-03
宝山会 --> 4.944373e-03

4 根据http://metaoptimize.com/qa/questions/523/semi-supervised-lda里提到的DFLDA进行实验:http://pages.cs.wisc.edu/~andrzeje/research/df_lda.html

Topic 0 (q=[1, 0])
张卡呢 = 0.072685
共计 = 0.045132
张卡啦 = 0.045044
业务五元 = 0.042826
单还到 = 0.036285
么和四 = 0.025718
多通讯 = 0.024973
就山东 = 0.021726
镇中 = 0.020360
河 = 0.016997

Topic 1 (q=[1, 0])
张卡呢 = 0.098994
拜三天 = 0.048262
应 = 0.035331
加在一起 = 0.033421
的基金 = 0.030094
商铺路 = 0.028404
反 = 0.027615
西惠吧 = 0.025675
公路 = 0.025184
归整 = 0.024308

Topic 2 (q=[1, 1])
归整 = 0.108440
河 = 0.061751
加在一起 = 0.042540
商铺路 = 0.039825
畅号 = 0.036164
一客户用联通 = 0.032237
看下 = 0.026373
外外 = 0.025259
一项游戏 = 0.025244
古力 = 0.019870

Topic 3 (q=[0, 1])
张卡呢 = 0.168497
的基金 = 0.030647
关新村 = 0.029506
应 = 0.028682
公告栏 = 0.020721
后所 = 0.018629
商铺路 = 0.018415
农发 = 0.017560
机制 = 0.016999
畅号 = 0.016507

Topic 4 (q=[0, 0])
张卡呢 = 0.084216
归整 = 0.035282
的基金 = 0.026447
三十四三十四 = 0.025861
第一 = 0.020458
杏三路 = 0.019952
畅号 = 0.019428
张卡啦 = 0.019348
夏兴 = 0.015283
河 = 0.015251

Topic 5 (q=[1, 1])
电视频道 = 0.030426
会公园 = 0.030013
这时候 = 0.026590
回知道 = 0.020506
通常 = 0.017784
平安 = 0.015408
三十七八 = 0.015402
农农 = 0.013383
路桥费 = 0.013107
外外 = 0.011711

这种方法在指定merge集合和split集合后反而效果不如所愿

gensim 主题模型 seed相关推荐

  1. win7 64位 Python3.5.1 scipy,numpy, Gensim主题模型包安装

    由于Gensim 官网暂时还没有Python3.5 对应的版本,本人安装 Gensim时也是各种纠结,因此专门开通博客,想通过博客来记录一下安装过程,希望也能对部分同道中人有点帮助. 环境: win7 ...

  2. lda主题模型python实现篇_主题模型TopicModel:通过gensim实现LDA

    使用python gensim轻松实现lda模型. gensim简介 gemsim是一个免费python库,能够从文档中有效地自动抽取语义主题.gensim中的算法包括:LSA(Latent Sema ...

  3. gensim实现LDA主题模型-------实战案例(分析希拉里邮件的主题)

    数据集下载:https://download.csdn.net/download/qq_41185868/10963668 第一步: 加载一些必要的库, 我们用的是gensim中的LDA模型,所以必须 ...

  4. 作者主题模型(Author-Topic Model)的Python Gensim实现

    Gensim中的主题模型包括三种,分别是LDA (Latent Dirichlet Allocation) 主题模型.加入了作者因素的作者主题模型 (Author-Topic Model, ATM) ...

  5. Gensim中动态主题模型——dtmmodel的使用

    import gensim import jieba import pandas as pd from gensim import corpora,models from gensim.models. ...

  6. gensim中动态主题模型(DTM)两种实现方法(一)

    目录 (一)gensim.models.ldaseqmodel包 1.基本使用方法 2.缩水的地方 (二)gensim.models.wrappers.dtmmodel.DtmModel包 1.没有c ...

  7. gensim中动态主题模型(DTM)两种实现方法(二)

    第一部分内容请点此阅读:gensim中动态主题模型(DTM)两种实现方法(一) 目录 (二)gensim.models.wrappers.dtmmodel.DtmModel包 1.如何使用呢? 2.c ...

  8. LDA主题模型——gensim实战

    今天我们来谈谈主题模型(Latent Dirichlet Allocation),由于主题模型是生成模型,而我们常用的决策树,支持向量机,CNN等常用的机器学习模型的都是判别模型.所以笔者首先简单介绍 ...

  9. 【机器学习】基于LDA主题模型的人脸识别专利分析

    作者 | Soren Gran 编译 | VK 来源 | Towards Data Science 介绍 作为一名数据科学家,文本数据提出了一个独特的挑战:虽然金融.年龄和温度数据可以立即被注入线性回 ...

最新文章

  1. .net core 微服务通讯组件Orleans的使用与配置
  2. linux无锁化编程
  3. 聊聊Java的泛型及实现
  4. 第三章:lambda表达式
  5. 如何把很多照片拼成一张照片_把很多小照片拼成一张大照片是怎么做的
  6. SamplePairing:针对图像处理领域的高效数据增强方式 | PaperDaily #34
  7. GCD,大家都知道的回顾
  8. python动态心形代码_父亲节,程序员几条代码硬核示爱
  9. java大津法确定阈值,大津法得到自适应阈值
  10. 通过shell进行数学计算
  11. JS、PHP输出语句。
  12. 逻辑数据库设计 - 无视约束(谈外键)
  13. groovy脚本一键360加固多渠道打包
  14. 利用微信搜索抓取公众号文章(转载)
  15. CentOS Install Passenger for ROR
  16. 华清远见22071作业端口指令实现灯点亮
  17. 单片机_第6章 单片机的定时/计数器
  18. 在滴滴云上搭建 API-Gateway Kong 实践
  19. open /data/prometheus: too many open files
  20. 报错:property on ‘HTMLMediaElement‘: The provided double value is non-finite.

热门文章

  1. Struts2介绍(一个大的工具库)
  2. 计算机学院毕业生祝福6,用数学知识写给毕业生祝福语6
  3. Spring Web项目
  4. Nacos源码之一-配置自动更新(重写)
  5. 超级计算机国产cpu,中国的天河一号超级计算机用的是国产CPU还是尽...-卓优商学问答...
  6. JavaEE学习日志(七十三): 黑马商城项目(六)
  7. 基于Vue.js的iView组件库table组件内render 里面 tab 里面的单选
  8. 2020-07-23 正则表达式生成工具
  9. stm32 spi nss硬件模式配置参考程序
  10. linux笔记(6):东山哪吒D1H测试HDMI显示内置图片-命令行调试