最近常听同事提及相关性分析,正巧看到这个google的开源库,并把相关操作与调试结果记录下来。

小说集可以百度《金庸小说全集 14部》全(TXT)作者:金庸 下载下来。

需要整理好格式,门派和武功名称之间需要有换行符,留意删除掉最后一行的空白区域。

下载完成后可以用自己习惯的工具或程序做相应调整,因语料内容太长,博客里面不允许"堆砌",所以没复制上来,有需要的可以再联系。

with open('names.txt') as f:

data= [line.strip() for line in f.readlines()]

novels = data[::2]

names= data[1::2]

novel_names= {k: v.split() for k, v inzip(novels, names)}

//可以在这里打印下看是不是都读取过

//开始分词并加载for _, names in novel_names.items():#.iteritems():(Python2的旧写法)

for name innames:

jieba.add_word(name)

with open("kongfu.txt",encoding='UTF-8') as f:

kungfu_names=[line.strip()for line inf.readlines()]

with open("bangs.txt") as f:

bang_names=[line.strip()for line inf.readlines()]for name inkungfu_names:

jieba.add_word(name)for name inbang_names:

jieba.add_word(name)

novels = ["书剑恩仇录","天龙八部","碧血剑","越女剑","飞狐外传","侠客行","射雕英雄传","神雕侠侣","连城诀","鸳鸯刀","倚天屠龙记","白马啸西风","笑傲江湖","雪山飞狐","鹿鼎记"]

//你知道的:飞雪连天射白鹿,笑书神侠倚碧鸳

sentences =[]for novel innovels:

with open('{}.txt'.format(novel),encoding='UTF-8') as f:

data=[line.strip()for line inf.readlines()ifline.strip()]for line indata:

words=list(jieba.cut(line))

sentences.append(words)

model=gensim.models.Word2Vec(sentences,

size=200, #100

window=5,

min_count=5,

workers=4)

//便于使用的方法

defget_gongfu(a, b, c):

d, _ = model1.most_similar(positive=[c, b], negative=[a])[0]

print (c,d)

//使用举例一

print ('-------------若黄蓉使出打狗棒法,郭靖会怎样?-------------------------')

get_gongfu("黄蓉","打狗棒法","郭靖")

print ('-------------若黄蓉拿着打狗棒,郭靖又会拿啥?-------------------------')

get_gongfu("黄蓉","打狗棒","郭靖")

输出结果:

-------------相关性:乔峰-------------------------

%% 虚竹 0.8226621747016907

%% 慕容复 0.809000551700592

%% 段正淳 0.808856725692749

%% 木婉清 0.7898266315460205

%% 童姥 0.7881260514259338

%% 袁承志 0.7863771915435791

%% 全冠清 0.7761101722717285

%% 谢烟客 0.7738543748855591

%% 俞莲舟 0.7663788199424744

%% 陆菲青 0.7651679515838623

-------------相关性:阿朱-------------------------阿紫0.8502078056335449王语嫣0.8323276042938232木婉清0.8188427090644836方怡0.81195068359375钟灵0.8042664527893066仪琳0.7905520796775818青青0.7837553024291992香香公主0.7774882316589355盈盈0.7765697836875916马夫人0.7628135681152344

-------------相关性:降龙十八掌-------------------------打狗棒法0.9099119901657104太极拳0.8792168498039246空明拳0.8742830157279968绝招0.864672064781189一阳指0.8576483726501465蛤蟆功0.8443030714988708心法0.8419612646102905棒法0.840523362159729罗汉拳0.838168740272522小擒拿手0.8356980085372925

-------------若黄蓉使出打狗棒法,郭靖会怎样?-------------------------郭靖 降龙十八掌-------------若黄蓉拿着打狗棒,郭靖又会拿啥?-------------------------郭靖 令旗

模型参数:

Python文章相关性分析---金庸武侠小说分析-----

sentences:可以是一个·ist,对于大语料集,建议使用BrownCorpus,Text8Corpus或·ineSentence构建。

sg: 用于设置训练算法,默认为0,对应CBOW算法;sg=1则采用skip-gram算法。

size:是指特征向量的维度,默认为100。大的size需要更多的训练数据,但是效果会更好. 推荐值为几十到几百。

window:表示当前词与预测词在一个句子中的最大距离是多少

alpha: 是学习速率

seed:用于随机数发生器。与初始化词向量有关。

min_count: 可以对字典做截断. 词频少于min_count次数的单词会被丢弃掉, 默认值为5

max_vocab_size: 设置词向量构建期间的RAM限制。如果所有独立单词个数超过这个,则就消除掉其中最不频繁的一个。每一千万个单词需要大约1GB的RAM。设置成None则没有限制。

sample: 高频词汇的随机降采样的配置阈值,默认为1e-3,范围是(0,1e-5)

workers参数控制训练的并行数。

hs: 如果为1则会采用hierarchica·softmax技巧。如果设置为0(defau·t),则negative sampling会被使用。

negative: 如果>0,则会采用negativesamp·ing,用于设置多少个noise words

cbow_mean: 如果为0,则采用上下文词向量的和,如果为1(defau·t)则采用均值。只有使用CBOW的时候才起作用。

hashfxn: hash函数来初始化权重。默认使用python的hash函数

iter: 迭代次数,默认为5

trim_rule: 用于设置词汇表的整理规则,指定那些单词要留下,哪些要被删除。可以设置为None(min_count会被使用)或者一个接受()并返回RU·E_DISCARD,uti·s.RU·E_KEEP或者uti·s.RU·E_DEFAU·T的函数。

sorted_vocab: 如果为1(defau·t),则在分配word index 的时候会先对单词基于频率降序排序。

batch_words:每一批的传递给线程的单词的数量,默认为10000

最近常听同事提及相关性分析,正巧看到这个google的开源库,并把相关操作与调试结果记录下来。

小说集可以百度《金庸小说全集 14部》全(TXT)作者:金庸 下载下来。

需要整理好格式,门派和武功名称之间需要有换行符,留意删除掉最后一行的空白区域。

下载完成后可以用自己习惯的工具或程序做相应调整,因语料内容太长,博客里面不允许"堆砌",所以没复制上来,有需要的可以再联系。

备注:首先百度到《金庸小说全集 14部》全(TXT)作者:金庸 下载下来,然后读取内容,另:以上模型每次都训练了,

python 小说分析_Python文章相关性分析---金庸武侠小说分析相关推荐

  1. python 小说人物分析_Python文章相关性分析---金庸武侠小说分析

    最近常听同事提及相关性分析,正巧看到这个google的开源库,并把相关操作与调试结果记录下来. 小说集可以百度<金庸小说全集 14部>全(TXT)作者:金庸 下载下来. 需要整理好格式,门 ...

  2. 如何用python进行相关性分析_Python文章相关性分析---金庸武侠小说分析

    最近常听同事提及相关性分析,正巧看到这个google的开源库,并把相关操作与调试结果记录下来. 小说集可以百度<金庸小说全集 14部>全(TXT)作者:金庸 下载下来. 需要整理好格式,门 ...

  3. 【转载】浅析金庸武侠小说中的哲理意蕴

    作者:刘幸 青年文学家2016年30期 武侠小说在中国文学中一直占据着一个非常重要的位置.无论是梁羽生,还是金庸,都是当代武侠小说创作的大师.他们的武侠小说,以现代小说的写作技巧为纲,在传统的写作手法 ...

  4. python 小说 云_python小说网站

    广告关闭 腾讯云11.11云上盛惠 ,精选热门产品助力上云,云服务器首年88元起,买的越多返的越多,最高返5000元! python爬虫之小说网站--下载小说(正则表达式)思路:1. 找到要下载的小说 ...

  5. 如何用python进行相关性分析_Python 数据相关性分析

    概述 在我们的工作中,会有一个这样的场景,有若干数据罗列在我们的面前,这组数据相互之间可能会存在一些联系,可能是此增彼涨,或者是负相关,也可能是没有关联,那么我们就需要一种能把这种关联性定量的工具来对 ...

  6. python相关性分析_Python:相关性分析

    一.相关关系:相关分析与回归分析在实际应用中有密切关系.然而在回归分析中,所关心的是一个随机变量Y对另一个(或一组)随机变量X的依赖关系的函数形式.而在相关分析中 ,所讨论的变量的地位一样,分析侧重于 ...

  7. python小说文本挖掘_Python小说文本挖掘正则表达式分析案例

    原文链接:http://tecdat.cn/?p=5673 约瑟夫·海勒的<第二十二条军规>是我最喜欢的小说.我最近读完了 ,并喜欢整本书中语言的创造性使用和荒谬人物的互动.对于我的可视化 ...

  8. python回调类_python 回调函数和回调方法的实现分析

    回调与事件驱动 回调函数有比较重要的意义:它在是事件驱动的体现 我们试想一个场景,如果我们触发了某个事件,比如点击事件 那么只要给这个点击事件绑定一个或多个处理事件,也就是回调函数 我们就可以在点击事 ...

  9. python微博评论情感分析_Python采集微博热评进行情感分析祝你狗年脱单

    Ps: 重要的事情说三遍!!! 结尾有彩蛋,结尾有彩蛋,结尾有彩蛋. 如果自己需要爬(cai)虫(ji)的数据量比较大,为了防止被网站封Ip,可以分时段爬取,另外对于爬到的数据一般是用来存储数据库,这 ...

  10. python目录遍历_python文件操作之目录遍历实例分析

    本文实例讲述了python文件操作之目录遍历的方法.分享给大家供大家参考.具体分析如下: Python的os模块,包含了普遍的操作系统功能,这里主要学习与路径相关的函数: os.listdir(dir ...

最新文章

  1. OC 的反射机制以及使用场景
  2. Android短信的发送和广播接收者实现短信的监听
  3. 形势说变就变!机器学习工程师恐在十年内消失?
  4. SAP 画皮门 从白狐到超人的华丽转身
  5. java基础学习,一些零散的笔记之内部类
  6. 实战 Windows 10 Microsoft Edge 中的多媒体投影功能
  7. vw 前端_一行css代码轻松实现前端响应式布局(vw+rem)
  8. SPOJ - PHRASES Relevant Phrases of Annihilation(后缀数组+二分)
  9. 软件性能测试与LoadRunner实战可以在网上和书店买到了
  10. 二级考试c语言100题,国家计算机二级考试 C语言上机100题
  11. 阿里云三代掌门人首次同台,共叙云计算十年风云路!
  12. 报文交换(串行)和分组交换(并行)
  13. 为什么需要消息队列(MQ)
  14. 静态页面评论处理以及列表处理
  15. 设计模式 (十) 装饰者模式
  16. 阿古斯机器人_炉石传说三选一卡池全部卡牌一览 挑战之旅冒险模式攻略
  17. IP信息解析和地理定位,以及免费GeoLite2-City.mmdb的使用教程
  18. 散列表(Hash表)
  19. Python @property详解及底层实现介绍
  20. activity串行多实例会签

热门文章

  1. 8.2-全栈Java笔记:字符串相关类(String/StringBuilder /StringBuffer)
  2. ubuntu20.04+vtd环境搭建
  3. php获取银行logo,依据银行卡号获取银行信息php代码
  4. 信号与系统公式笔记(9)——Z变换
  5. php留言板源码无需数据库,无需数据库的PHP留言板
  6. 浅谈JVM中如何自动回收内存
  7. html开网站弹窗代码大全,网页弹窗代码大全
  8. bp神经网络预测模型流程图,bp神经网络实例分析
  9. 脉冲电子围栏在国家公园安全防护中的作用
  10. 私有云计算保密技术谁家靠谱?云宏CNware®虚拟化平台安全体系设计