gensim 主题模型 seed
1、关于gensim LDA主题模型网上有个简单的的例子:http://blog.itpub.net/16582684/viewspace-1253901/我也用来在自己集子上试验了下效果。
我的数据来自呼叫中心的客服数据,类似移动联通电信中客服数据。
gensim+TFIDF
0.002*毛二给 + 0.002*包五 + 0.002*那打 + 0.001*英国 + 0.001*加过 + 0.001*23点 + 0.001*拨号键 + 0.001*一巷 + 0.001*22号 + 0.001*毛八分
0.003*激活 + 0.003*备卡 + 0.002*备份 + 0.002*兆来 + 0.002*为期 + 0.002*短信中心 + 0.002*19号 + 0.002*法国 + 0.001*卡 + 0.001*通讯录
0.002*日一笑 + 0.001*大众卡 + 0.001*user + 0.001*no + 0.001*天会 + 0.001*400元 + 0.001*重开 + 0.001*刚开始 + 0.001*兆是 + 0.001*御
0.002*江苏省 + 0.002*畅游 + 0.002*转至 + 0.001*宽带 + 0.001*五毛钱 + 0.001*号段 + 0.001*匹配 + 0.001*订单 + 0.001*一通 + 0.001*联系
0.003*台湾 + 0.002*点播 + 0.002*更新 + 0.002*软件 + 0.002*处理 + 0.002*自然 + 0.002*手机 + 0.002*反映 + 0.002*宽带 + 0.002*PUK
0.008*毛 + 0.007*打 + 0.005*上海 + 0.005*优惠 + 0.005*开通 + 0.005*免费 + 0.004*取消 + 0.004*套餐 + 0.004*一块钱 + 0.004*直拨
0.002*参数设置 + 0.002*期待 + 0.002*转给 + 0.001*小说 + 0.001*么快 + 0.001*包打 + 0.001*短信吧 + 0.001*请见 + 0.001*新干线 + 0.001*搞笑
0.002*0.0005元 + 0.002*优惠活动 + 0.001*风景 + 0.001*少于 + 0.001*16号 + 0.001*拨出去 + 0.001*群发 + 0.001*七五 + 0.001*26元 + 0.001*月对吧
0.002*毛八给 + 0.002*户名 + 0.002*兆加 + 0.001*家住 + 0.001*宽带 + 0.001*汉字 + 0.001*发布 + 0.001*G + 0.001*下吧 + 0.001*折
0.009*流量 + 0.008*兆 + 0.006*套餐 + 0.006*G + 0.005*密码 + 0.005*月 + 0.005*开通 + 0.004*号码 + 0.004*短信 + 0.004*卡
gensim
0.092*是 + 0.036*就是 + 0.027*打 + 0.025*套餐 + 0.020*没有 + 0.020*可以 + 0.019*月 + 0.018*有 + 0.018*话 + 0.015*毛
0.044*可以 + 0.038*是 + 0.033*帮 + 0.032*密码 + 0.025*号码 + 0.020*要 + 0.020*知道 + 0.020*身份证 + 0.018*就是 + 0.017*没有
0.079*流量 + 0.074*是 + 0.074*兆 + 0.028*就是 + 0.020*可以 + 0.020*有 + 0.020*帮 + 0.019*套餐 + 0.015*没有 + 0.015*话
0.065*是 + 0.027*就是 + 0.026*有 + 0.024*说 + 0.024*没有 + 0.023*帮 + 0.018*手机 + 0.014*可以 + 0.012*看 + 0.012*话
0.046*是 + 0.032*帮 + 0.028*可以 + 0.026*短信 + 0.021*开通 + 0.021*手机 + 0.020*没有 + 0.016*功能 + 0.015*就是 + 0.014*谢谢
0.077*是 + 0.030*没有 + 0.026*说 + 0.024*就是 + 0.023*有 + 0.019*号码 + 0.015*要 + 0.013*打 + 0.012*可以 + 0.012*看
0.054*取消 + 0.038*帮 + 0.034*是 + 0.029*可以 + 0.021*包 + 0.021*没有 + 0.020*还有 + 0.015*掉 + 0.015*谢谢 + 0.014*再见
0.018*是 + 0.014*G + 0.013*就是 + 0.010*有 + 0.010*PUK + 0.009*码 + 0.008*没有 + 0.007*可以 + 0.006*说 + 0.006*卡
0.087*G + 0.070*是 + 0.034*就是 + 0.034*流量 + 0.032*卡 + 0.029*可以 + 0.024*手机 + 0.019*套餐 + 0.018*有 + 0.017*换
0.062*是 + 0.036*月 + 0.033*就是 + 0.025*可以 + 0.021*充 + 0.020*有 + 0.020*没有 + 0.018*套餐 + 0.016*消费 + 0.016*要
gensim+挑选出动词和名词
0.046*帮 + 0.029*手机 + 0.025*流量 + 0.025*上网 + 0.021*没有 + 0.018*有 + 0.017*看 + 0.017*功能 + 0.012*关掉 + 0.011*到
0.055*开通 + 0.038*帮 + 0.030*密码 + 0.024*套餐 + 0.021*知道 + 0.017*生效 + 0.017*没有 + 0.017*流量 + 0.016*再见 + 0.016*开
0.039*月 + 0.030*充 + 0.024*有 + 0.024*消费 + 0.023*活动 + 0.021*话费 + 0.020*送 + 0.018*没有 + 0.018*号码 + 0.017*到
0.054*兆 + 0.051*流量 + 0.041*密码 + 0.039*帮 + 0.022*知道 + 0.022*没有 + 0.018*月 + 0.017*有 + 0.017*五块钱 + 0.017*包
0.045*套餐 + 0.029*月 + 0.028*没有 + 0.028*打 + 0.023*流量 + 0.021*有 + 0.021*毛 + 0.020*帮 + 0.017*兆 + 0.014*上海
0.033*号码 + 0.032*打 + 0.027*没有 + 0.025*帮 + 0.021*电话 + 0.018*手机 + 0.016*有 + 0.014*卡 + 0.013*知道 + 0.011*到
0.098*G + 0.050*流量 + 0.031*卡 + 0.028*有 + 0.027*套餐 + 0.025*手机 + 0.021*没有 + 0.019*兆 + 0.018*换 + 0.012*网络
0.051*取消 + 0.051*帮 + 0.024*业务 + 0.022*没有 + 0.021*有 + 0.018*掉 + 0.018*手机 + 0.016*费用 + 0.016*看 + 0.013*月
0.044*没有 + 0.036*有 + 0.020*帮 + 0.018*短信 + 0.017*手机 + 0.016*看 + 0.015*到 + 0.012*查 + 0.012*问题 + 0.011*扣
0.027*兑换 + 0.024*积分 + 0.022*有 + 0.018*打 + 0.013*短信 + 0.012*看 + 0.012*帮 + 0.009*没有 + 0.008*手机 + 0.007*号码
gensim+挑选出动词和名词+TFIDF
0.008*流量 + 0.007*兆 + 0.006*G + 0.005*月 + 0.005*充 + 0.005*套餐 + 0.005*卡 + 0.004*号码 + 0.004*话费 + 0.004*扣
0.010*套餐 + 0.009*毛 + 0.008*兆 + 0.008*流量 + 0.007*取消 + 0.007*打 + 0.006*生效 + 0.006*开通 + 0.006*密码 + 0.006*免费
0.002*毛八给 + 0.002*被盗 + 0.002*家住 + 0.002*19号 + 0.002*遗失 + 0.001*酷派 + 0.001*星符 + 0.001*纸制 + 0.001*呢会 + 0.001*禁止
0.012*激活 + 0.005*卡 + 0.004*呼叫 + 0.004*G + 0.004*备份 + 0.003*星号 + 0.002*功能 + 0.002*开通 + 0.002*键 + 0.002*三井
0.005*韩国 + 0.003*国际漫游 + 0.003*WCDMA + 0.003*请注意 + 0.001*制式 + 0.001*漫游 + 0.001*包打 + 0.001*关闭 + 0.001*国际 + 0.001*两号
0.003*广东 + 0.003*好知道了 + 0.002*好问 + 0.002*兆也 + 0.002*阜南 + 0.001*新加坡 + 0.001*忘掉 + 0.001*英国 + 0.001*方式给 + 0.001*浙江省
0.002*中国电信 + 0.001*么可 + 0.001*上网本 + 0.001*美女 + 0.001*刚开始 + 0.001*user + 0.001*no + 0.001*抵消 + 0.001*回执 + 0.001*进来了
0.009* + 0.002*0.0005元 + 0.002*参数设置 + 0.002*移动梦网 + 0.001*23点 + 0.001*都帮我 + 0.001*打掉 + 0.001*猫 + 0.001*关下 + 0.001*十分满意
0.002*季度 + 0.002*仅供 + 0.002*黑名单 + 0.001*CMCC + 0.001*福建省 + 0.001*标识 + 0.001*改动 + 0.001*球 + 0.001*数据包 + 0.001*那帮我
0.007*功能 + 0.007*国际漫游 + 0.006*开通 + 0.005*上网 + 0.005*密码 + 0.005*短信 + 0.005*关机 + 0.005*手机 + 0.004*关闭 + 0.004*漫游
2、根据http://gensim.narkive.com/eGrph9ii/gensim-3348-confused-about-the-eta-param-of-lda设置eta参数可以加强某些word的置信度。
gensim+挑选出动词和名词+TFIDF+eta(666666666666666)
0.006*卡 + 0.006*G + 0.005*激活 + 0.004*手机 + 0.003*问题 + 0.003*信号 + 0.003*网络 + 0.003*关机 + 0.003*换 + 0.003*反映
0.006* + 0.002*国际漫游 + 0.002*韩国 + 0.001*澳门 + 0.001*德国 + 0.001*好了可 + 0.001*井键 + 0.001*国际 + 0.001*漫游 + 0.001*转至
0.008*流量 + 0.008*兆 + 0.006*套餐 + 0.006*密码 + 0.005*月 + 0.005*开通 + 0.005*取消 + 0.005*G + 0.004*号码 + 0.004*短信
0.001*英国 + 0.001*识别 + 0.001*兆从 + 0.001*一巷 + 0.001*老年 + 0.001*no + 0.001*user + 0.001*年限 + 0.001*那行行 + 0.001*寻的
0.001*福建 + 0.001*畅游 + 0.001*0.0005元 + 0.001*都帮我 + 0.001*日一笑 + 0.001*么发 + 0.001*加对 + 0.001*兆先生 + 0.001*请见 + 0.001*兆
0.010*毛 + 0.008*打 + 0.006*上海 + 0.005*优惠 + 0.005*套餐 + 0.005*开通 + 0.005*漫游 + 0.005*直拨 + 0.004*市话 + 0.004*免费
3、根据论文《Incorporatiing lexical priors into topic models》中加入seed,使用开源代码进行实验。
实验补充:
Arguments:
Number of words W = 32986
Number of docs D = 15798
Number of topics T = 6
Number of iterations N = 100
Hyperparameter ALPHA = 1.0000
Hyperparameter BETA = 0.0100
Seed number = 6
Number of tokens = 1607284
Determining random order update sequence
Iter:20x:50x100x 0 /100, perp... (train) 796.515713 Entropy (k|d): 1.759740 (w|k): 5.513596
Iter:20x:50x100x 100 /100, perp... (train) 608.646998 Entropy (k|d): 0.966013 (w|k): 4.928071
Topic:0
套餐 --> 1.999451e-01
查 --> 7.497942e-02
冲抵 --> 2.675834e-02
设立 --> 2.537794e-02
月租 --> 2.499316e-02
晓东 --> 2.150507e-02
应 --> 1.907819e-02
应为 --> 1.603117e-02
福建厦门 --> 1.566743e-02
拨就延长路 --> 1.443909e-02
后手 --> 1.397398e-02
新朋友 --> 1.289172e-02
1.5元 --> 1.246836e-02
小薇 --> 1.135331e-02
编辑 --> 9.907316e-03
才会算 --> 9.752282e-03
反 --> 9.382585e-03
后所 --> 8.899593e-03
泰和系统 --> 7.543044e-03
山田路 --> 7.340307e-03
业务五元 --> 7.262790e-03
路21号 --> 6.797687e-03
宝山会 --> 6.615820e-03
是长江 --> 6.436934e-03
我我浙江省 --> 6.425009e-03
二部 --> 6.293826e-03
八连 --> 5.423249e-03
看下 --> 5.348713e-03
我店 --> 5.280140e-03
涉 --> 5.259270e-03
Topic:1
网 --> 8.567395e-02
GPRS --> 8.567395e-02
流量 --> 8.567395e-02
GPS --> 4.283699e-02
需求量 --> 4.135685e-02
贾夏兴村 --> 3.189201e-02
咣 --> 1.775544e-02
应 --> 1.731508e-02
后手 --> 1.620572e-02
后所 --> 1.529678e-02
太公 --> 1.388538e-02
那那就我有 --> 1.007178e-02
福建厦门 --> 1.006049e-02
畅号 --> 9.538269e-03
夏对 --> 9.001937e-03
园田 --> 7.387296e-03
看下 --> 6.890484e-03
泰和系统 --> 6.695711e-03
重新考虑 --> 6.667483e-03
多通讯 --> 6.320278e-03
那我银行 --> 6.308987e-03
归整 --> 5.891213e-03
那五毛 --> 5.879922e-03
宝山会 --> 5.803706e-03
18块对吧 --> 5.301248e-03
冲抵 --> 5.016145e-03
二部 --> 4.925816e-03
看么 --> 4.810081e-03
夏区 --> 4.615308e-03
我我浙江省 --> 4.581434e-03
Topic:2
机型 --> 2.157770e-01
参加 --> 4.736570e-02
应 --> 2.551446e-02
后手 --> 2.440216e-02
福建厦门 --> 1.968480e-02
看么 --> 1.742961e-02
品牌 --> 1.578858e-02
咣 --> 1.337998e-02
归整 --> 1.304521e-02
最低 --> 1.052573e-02
营销 --> 1.052573e-02
信线路 --> 9.389750e-03
五福 --> 9.350154e-03
成都贵阳 --> 9.229565e-03
太公 --> 9.198968e-03
月里 --> 8.282852e-03
畅号 --> 7.917486e-03
欣欣 --> 6.452422e-03
冲抵 --> 6.396627e-03
宝山会 --> 6.373229e-03
我我浙江省 --> 6.189646e-03
中对移动 --> 5.626298e-03
开学 --> 5.322126e-03
时都三 --> 5.201537e-03
遭遇 --> 5.068350e-03
有线有线 --> 4.821773e-03
月业务 --> 4.283622e-03
项好七 --> 4.265624e-03
多块都有 --> 4.208029e-03
路名 --> 4.190031e-03
Topic:3
两城 --> 1.874227e-01
全球通 --> 1.124537e-01
看书 --> 6.279950e-02
负 --> 5.185208e-02
晓东 --> 3.021632e-02
福建厦门 --> 2.331408e-02
贾夏兴村 --> 2.049902e-02
应 --> 1.472653e-02
应为 --> 1.469152e-02
后手 --> 1.393290e-02
活业务 --> 1.352442e-02
设立 --> 1.245768e-02
太公 --> 1.112952e-02
才会算 --> 1.109217e-02
宝山会 --> 9.976423e-03
少了点 --> 9.929739e-03
泰和系统 --> 9.588945e-03
反 --> 8.645926e-03
二部 --> 7.639883e-03
是长江 --> 7.539512e-03
夏区 --> 7.336436e-03
山田路 --> 7.007313e-03
畅号 --> 6.694529e-03
新朋友 --> 5.800529e-03
交出去 --> 5.753845e-03
归整 --> 5.732837e-03
语 --> 5.333687e-03
营业厅补点 --> 5.310345e-03
信线路 --> 5.139948e-03
华昌 --> 4.890188e-03
Topic:4
集团 --> 1.581724e-01
取消 --> 8.181330e-02
福建厦门 --> 3.417926e-02
少了点 --> 2.802261e-02
后所 --> 2.474913e-02
积分 --> 2.181690e-02
咣 --> 1.872638e-02
反 --> 1.842439e-02
宝山会 --> 1.701699e-02
阅读 --> 1.636268e-02
应 --> 1.513667e-02
泰和系统 --> 1.405690e-02
月里 --> 1.307400e-02
二部 --> 1.114524e-02
当时 --> 1.103413e-02
涉 --> 1.102559e-02
太公 --> 1.091733e-02
家庭 --> 1.090847e-02
开通 --> 1.090847e-02
多通讯 --> 8.851814e-03
畅号 --> 7.886009e-03
新朋友 --> 7.777748e-03
后手 --> 7.655242e-03
看么 --> 7.316213e-03
归整 --> 7.304817e-03
交出去 --> 6.150980e-03
保保证 --> 5.803404e-03
一蚌埠市区 --> 5.569787e-03
发一158月号 --> 5.529902e-03
宋宋 --> 5.396000e-03
Topic:5
卡 --> 9.994510e-02
乱 --> 9.994510e-02
扣 --> 9.994510e-02
煤厂 --> 3.557003e-02
应为 --> 3.409586e-02
夏区 --> 2.337523e-02
后手 --> 1.973358e-02
国航 --> 1.831049e-02
么去实 --> 1.798573e-02
应 --> 1.783247e-02
客户号 --> 1.581460e-02
畅号 --> 1.378579e-02
设立 --> 1.142491e-02
信线路 --> 1.130085e-02
晓东 --> 1.117313e-02
归整 --> 9.111477e-03
福建厦门 --> 8.655358e-03
资料都点 --> 8.053280e-03
笔调 --> 6.965892e-03
看么 --> 6.418549e-03
咣 --> 6.261645e-03
五福 --> 6.177719e-03
后所 --> 6.170421e-03
园田 --> 5.721599e-03
东阳县 --> 5.648620e-03
看下 --> 5.582939e-03
泰和系统 --> 5.371300e-03
月里 --> 5.072086e-03
古城 --> 4.948021e-03
宝山会 --> 4.944373e-03
4 根据http://metaoptimize.com/qa/questions/523/semi-supervised-lda里提到的DFLDA进行实验:http://pages.cs.wisc.edu/~andrzeje/research/df_lda.html
Topic 0 (q=[1, 0])
张卡呢 = 0.072685
共计 = 0.045132
张卡啦 = 0.045044
业务五元 = 0.042826
单还到 = 0.036285
么和四 = 0.025718
多通讯 = 0.024973
就山东 = 0.021726
镇中 = 0.020360
河 = 0.016997
Topic 1 (q=[1, 0])
张卡呢 = 0.098994
拜三天 = 0.048262
应 = 0.035331
加在一起 = 0.033421
的基金 = 0.030094
商铺路 = 0.028404
反 = 0.027615
西惠吧 = 0.025675
公路 = 0.025184
归整 = 0.024308
Topic 2 (q=[1, 1])
归整 = 0.108440
河 = 0.061751
加在一起 = 0.042540
商铺路 = 0.039825
畅号 = 0.036164
一客户用联通 = 0.032237
看下 = 0.026373
外外 = 0.025259
一项游戏 = 0.025244
古力 = 0.019870
Topic 3 (q=[0, 1])
张卡呢 = 0.168497
的基金 = 0.030647
关新村 = 0.029506
应 = 0.028682
公告栏 = 0.020721
后所 = 0.018629
商铺路 = 0.018415
农发 = 0.017560
机制 = 0.016999
畅号 = 0.016507
Topic 4 (q=[0, 0])
张卡呢 = 0.084216
归整 = 0.035282
的基金 = 0.026447
三十四三十四 = 0.025861
第一 = 0.020458
杏三路 = 0.019952
畅号 = 0.019428
张卡啦 = 0.019348
夏兴 = 0.015283
河 = 0.015251
Topic 5 (q=[1, 1])
电视频道 = 0.030426
会公园 = 0.030013
这时候 = 0.026590
回知道 = 0.020506
通常 = 0.017784
平安 = 0.015408
三十七八 = 0.015402
农农 = 0.013383
路桥费 = 0.013107
外外 = 0.011711
这种方法在指定merge集合和split集合后反而效果不如所愿
gensim 主题模型 seed相关推荐
- win7 64位 Python3.5.1 scipy,numpy, Gensim主题模型包安装
由于Gensim 官网暂时还没有Python3.5 对应的版本,本人安装 Gensim时也是各种纠结,因此专门开通博客,想通过博客来记录一下安装过程,希望也能对部分同道中人有点帮助. 环境: win7 ...
- lda主题模型python实现篇_主题模型TopicModel:通过gensim实现LDA
使用python gensim轻松实现lda模型. gensim简介 gemsim是一个免费python库,能够从文档中有效地自动抽取语义主题.gensim中的算法包括:LSA(Latent Sema ...
- gensim实现LDA主题模型-------实战案例(分析希拉里邮件的主题)
数据集下载:https://download.csdn.net/download/qq_41185868/10963668 第一步: 加载一些必要的库, 我们用的是gensim中的LDA模型,所以必须 ...
- 作者主题模型(Author-Topic Model)的Python Gensim实现
Gensim中的主题模型包括三种,分别是LDA (Latent Dirichlet Allocation) 主题模型.加入了作者因素的作者主题模型 (Author-Topic Model, ATM) ...
- Gensim中动态主题模型——dtmmodel的使用
import gensim import jieba import pandas as pd from gensim import corpora,models from gensim.models. ...
- gensim中动态主题模型(DTM)两种实现方法(一)
目录 (一)gensim.models.ldaseqmodel包 1.基本使用方法 2.缩水的地方 (二)gensim.models.wrappers.dtmmodel.DtmModel包 1.没有c ...
- gensim中动态主题模型(DTM)两种实现方法(二)
第一部分内容请点此阅读:gensim中动态主题模型(DTM)两种实现方法(一) 目录 (二)gensim.models.wrappers.dtmmodel.DtmModel包 1.如何使用呢? 2.c ...
- LDA主题模型——gensim实战
今天我们来谈谈主题模型(Latent Dirichlet Allocation),由于主题模型是生成模型,而我们常用的决策树,支持向量机,CNN等常用的机器学习模型的都是判别模型.所以笔者首先简单介绍 ...
- 【机器学习】基于LDA主题模型的人脸识别专利分析
作者 | Soren Gran 编译 | VK 来源 | Towards Data Science 介绍 作为一名数据科学家,文本数据提出了一个独特的挑战:虽然金融.年龄和温度数据可以立即被注入线性回 ...
最新文章
- .net core 微服务通讯组件Orleans的使用与配置
- linux无锁化编程
- 聊聊Java的泛型及实现
- 第三章:lambda表达式
- 如何把很多照片拼成一张照片_把很多小照片拼成一张大照片是怎么做的
- SamplePairing:针对图像处理领域的高效数据增强方式 | PaperDaily #34
- GCD,大家都知道的回顾
- python动态心形代码_父亲节,程序员几条代码硬核示爱
- java大津法确定阈值,大津法得到自适应阈值
- 通过shell进行数学计算
- JS、PHP输出语句。
- 逻辑数据库设计 - 无视约束(谈外键)
- groovy脚本一键360加固多渠道打包
- 利用微信搜索抓取公众号文章(转载)
- CentOS Install Passenger for ROR
- 华清远见22071作业端口指令实现灯点亮
- 单片机_第6章 单片机的定时/计数器
- 在滴滴云上搭建 API-Gateway Kong 实践
- open /data/prometheus: too many open files
- 报错:property on ‘HTMLMediaElement‘: The provided double value is non-finite.
热门文章
- Struts2介绍(一个大的工具库)
- 计算机学院毕业生祝福6,用数学知识写给毕业生祝福语6
- Spring Web项目
- Nacos源码之一-配置自动更新(重写)
- 超级计算机国产cpu,中国的天河一号超级计算机用的是国产CPU还是尽...-卓优商学问答...
- JavaEE学习日志(七十三): 黑马商城项目(六)
- 基于Vue.js的iView组件库table组件内render 里面 tab 里面的单选
- 2020-07-23 正则表达式生成工具
- stm32 spi nss硬件模式配置参考程序
- linux笔记(6):东山哪吒D1H测试HDMI显示内置图片-命令行调试