在这个生辰八字和十二生肖早已过气的年代,如果要和人聊天,尤其是和女性聊天,星座话题是一个不错的开始,比如:

“最近诸事不顺?一定是又水逆了!”

“有个男生追我,可他是射手座,我hold不住他吧!”

“你们双子座,俩人就够打一台麻将了吧!”

“你不是处女座吗?房间这么乱?”

“你个处女座怎么跟摩羯座似的,内心戏绕地球一万圈。”

“我那哥们儿是狮子座,一恋爱就成小奶猫了。”

在社交网络上,星座博主们孜孜不倦地发布着星座运势分析,五花八门的星座解析网站也靠这个赚得盆满钵满。在现实生活里,大家也很乐于对号入座,将自己的性格命运和星座联系起来。从桃花运到狗屎运,从职场发展到未来能赚多少钱,我们人生的方方面面似乎都可以用星座来解释。甚至有公司的HR在招聘时询问面试者是否是处女座,如果是的话就果断放弃。

经过多年的诠释,神通广大的星座也有了一些基本的套路,但是每个星座博主的分析依然差别很大。那么到底信谁的呢?为了解决这个问题,数读菌决定从数据分析的角度出发,为大家打造一份独一无二的星座指南,起底一下十二星座解析里的小秘密和套路。看完这篇总结,你应该也可以帮别人预测运势了。

一、数据分析准备

为了得到足够多的数据,数读菌利用爬虫,从微博、微信等社交平台,以及一些星座门户网站上获得了将近25万条共8900万字的文本数据,并按照星座与信息发布的时间将这些数据分好类。有了数据后,分析工具数读菌选择了Anaconda自带的Spyder(Python3.6),主要使用到的包是jieba,主要的方法选择了关键词提取、简单的分词统计以及共现。

二、十二星座的小性格

首先令数读菌好奇的是,这些海量的星座解析中都给十二星座赋予哪些特质?和平时印象中的那些性格特征一样不一样呢?

(一)十大特质

于是,将2012年-2017年的数据按星座分好类后,我们利用extract_tags和textrank两个函数抽取了关键词权重排序在前500的关键词,将其汇总后再按照关键词权重排名,选取排在前10的词语绘制出了这六年里十二星座的十大性格特质。

从这些词语中,数读菌选取了一些比较有特点的星座,得出以下的结论:

处女座:六年里第一关键词基本不曾变化,九个完美里夹着一个干净,完美主义的化身非你莫属。

巨蟹座:六年里温柔和敏感反复出现,真是温柔与敏感本人了。同时巨蟹还是一个富有耐心,内心简单的人。

双鱼座:和巨蟹座一样,性格里充满敏感与温柔,但又更追求浪漫的感觉。

金牛座:稳重而踏实,又温柔而善良,有时又固执,很像一只朴实的牛。

射手座:追求自由又乐观,暧昧中混着神秘的气质。

双子座:和射手一样放荡不羁爱自由,追求浪漫又爱搞小暧昧。

水瓶座:善良的小天使,在追求自由的道路,却时常感到孤独。

天秤座:不是优雅就是漂亮,天秤座可能是最美的星座。

狮子座:固执,骄傲的小王子。

(二)共有特质

利用计算交集的方法,数读菌又计算出了所有星座的共有关键词。

从这些共有词中,数读菌大胆地得出以下结论:

每一个人都有孤独的时候,就算外表显得再坚强,内心也有脆弱的一面。

不管你对其他星座的印象如何不好,每个星座其实都有善良、单纯、温柔、简单的一面。

浪漫与自由,是人们共同的追求。

其实每个人都是有耐心的,只是耐心的限度不同。

幽默感藏在性格的深处,挖掘一下一定会有新发现,不要放弃。

笨只是表面,每个人都有聪明的一面。

三、十二星座星座指数

分析完了各个星座的性格特质后,接下来当然要看看大家关心的星座内容了。于是数读菌继续深挖,利用词频统计方法,就大家比较关注的话题设立了一些指数。

(一)吃货排行榜

一个吃货的自我修养是:“吃不了,就兜着走”。在十二星座里,五大吃货分别是金牛座、巨蟹座、处女座、白羊座和双鱼座,尤其是金牛座,吃货指数遥遥领先,比第二名的两倍还多,可能是因为真的很有钱吧。而最没有吃货潜质的是摩羯座、水瓶座与天秤座。看来如果想降服金牛座,美食一定是个不错的选择。

(二)金钱指数

数读菌又通过建立与有钱、剁手和月光相关的描述词典,统计了每个星座的文档中出现相关描述的总数量,得到了有钱指数、剁手指数和月光指数。爱吃的金牛座果不其然在金钱的问题上大杀四方,毫无敌手。想要吃的好,首先得有钱。金牛座不仅在“有钱指数”上牢牢占据第一名的位置,是其他星座的三倍以上,同样荣登“剁手榜”与“月光榜”的宝座,可见其挣得多,花的也多。当然,能不能存下钱就不好说了。

另一个值得关注的对象是巨蟹座。有钱指数倒数第二的巨蟹座,在“月光排行榜”和“吃货排行榜”上却夺得了亚军。所以巨蟹座的宝宝们可得悠着点,吃太多长胖不说,每个月月底的信用卡和花呗估计都要还不上了。

最老实的则是摩羯座,赚钱能力虽然不高,可是花的也很少了。

(三)渣男排行榜

提到星座就不能不说感情这一块了。鉴于爱聊星座的女生居多,爱聊的男生也有很大几率是好姐妹,所以数读菌在这里只统计了“渣男指数”。不出意外,无论是人们的普遍印象也好,还是最后的分析结果也好,双子座都荣幸地将其他星座远远地甩开,以其它星座两倍的实力夺冠,获得“渣男之王”的桂冠。

紧随其后“渣男”是射手座,而一向给人老实感觉的金牛座夺得了季军,天蝎座则排名第四。有渣男自然也有专情的,在诸多星座分析中,认为“比较没钱又不太花钱”的摩羯座是渣男的声量最小。

(四)猫奴VS狗主

渣男可恨,专情难寻,不过没关系,我们还有猫和狗来抚慰寂寞的心灵。虽然最近猫咪在网络上的风头远远盖过了狗狗,养猫也被戏谑为年轻人进入中产的标志,但是从分析汇总得到的数据来看,人们对狗狗的关注程度还是远远大于猫咪的。

除了同为猫科动物的狮子座以外,其他星座关注狗的情况均高过猫,而巨蟹座和摩羯座则是最不关注猫狗的星座。

四、十二星座交际圈

在分析完各种有趣的指数后,数读菌利用共现的方法继续深挖星座间的互动关系。我们统计了在每篇文章中星座两两出现的总次数,并用不同性别的星座构成了图中的节点,用共现次数构成关系纽带,通过可视化技术绘制出社会网络图。(数读菌注:本社会网络图实际上是一个球体,现在看到的是球体投影在平面上的样子)。简单来说,图中越靠近中心的星座在整个网络中的影响力也就越高,相反在边缘的星座影响力相对较弱。

在通过Ucinet软件对该图的数据进行简单的计算后,数读菌发现相对处于网络中心地带的星座有:白羊女、处女男、处女女、金牛男、巨蟹男、巨蟹女、射手男、狮子男、狮子女、双鱼男、双子男、水瓶男、天秤男和天蝎男。

而相对处于边缘的有:白羊男、金牛女、摩羯男、摩羯女、射手女、双鱼女、双子女、水瓶女、天秤女和天蝎女。另一方面,在这个网络中没有明显的中心人物,并没有哪一个星座一枝独秀。

五、十二星座恋爱配对

数读菌知道,只有“渣男指数”是远远不能满足大家的需求的。所以在这里,我们要为大家展示本期数读的终极内容——十二星座恋爱配对情况。在计算共现次数的同时,数读菌还建立了一个关于描述恋爱幸福与不幸的词典,统计了每条数据中幸福指数与不幸指数之差,计算出了星座两两配对的幸福净值情况。

从结果来看,大多数星座都和本星座匹配度最高,而天秤座无论男女,与大多数星座的异性都不是很配。金牛男和摩羯男只有在和本星座的女性配对时幸福净值才比较高。

水瓶男与水瓶女,以及处女男与处女女配对后的幸福净值远远高于其他的星座配对。而最匹配Top5的星座配对中,水瓶女独占三席。

而幸福净值得分最低是天秤女与巨蟹男、天秤女与白羊男,以及天秤女与射手男。也不知道天秤女到底是招谁惹谁了,在幸福净值排行中倒数前10组里,天秤女占了7席。

那么天秤女的“真爱”是谁呢?大概只有狮子男与天秤男了。

六、结语

看到这里,数读菌需要再次提醒大家的是,本文权当娱乐,莫要太过当真。星座解析用于茶余饭后的闲聊时光还行,可以为平淡无味却又不得不努力工作的日子增加一点乐趣,加深一下闺蜜之间许久没有联系的感情,或者化解第一次见面无话可谈的尴尬。

但是过度依赖星座解析,甚至用星座给其他人贴标签,就比较蠢了。毕竟符合你星座配对的人有千千万,而真的爱你的,可能一个都没有。

生活里人人都想要一本百事通指南,从而降低对未知事物的焦虑与恐惧,但能够达到这个效果的,大概只有人民币了。

最后,大家如果觉得好玩,还有其他星座分析的数据想了解,欢迎留言,数读菌会选取有趣的角度为大家继续起底星座分析的其他秘密。

来源:网易数读


精彩活动

福利 · 阅读 | 免费申请读大数据新书 第23期

推荐阅读

2017年数据可视化的七大趋势!

全球100款大数据工具汇总(前50款)

论大数据的十大局限

大数据时代的10个重大变革

大数据七大趋势 第一个趋势是物联网

Q:你是什么星座?

你认为你做重要的特质是什么?

欢迎留言与大家分享

请把这篇文章分享给你的朋友

转载 / 投稿请联系:hzzy@hzbook.com

更多精彩文章,请在公众号后台点击“历史文章”查看

这可能是全中国最靠谱的星座指南相关推荐

  1. 鸿蒙首个云网站,鸿蒙首个云平台服务全中国

    全球首个云计算网络应用平台----鸿蒙云平台按行政区划不仅可以虚拟中国,同样按区域一样可以虚拟全世界.全球任何一个国家都可采用鸿蒙云平台架构方式进行虚拟划分,直至虚拟全球.这就是云计算平台之伟大,让世 ...

  2. Atitit. 真正的全中国文字attilax易语言的特点以及范例

    Atitit. 真正的全中国文字attilax易语言的特点以及范例 1. 前言 attilax易语言是什么??1 2. attilax易语言的特点2 2.1. 支持多语言文字,不只汉字,还有藏文,维文 ...

  3. 请你帮我一起转到全中国

    原文地址:http://blog.csdn.net/yanheven1/article/details/16824753?locationNum=8&fps=1 请你帮我一起转到全中国  如果 ...

  4. 对计算机专业最难的,计算机专业: 最好的7所大学! 也是全中国“最难考”的大学!...

    原标题:计算机专业: 最好的7所大学! 也是全中国"最难考"的大学! 高考即将来临,很多高考生在努力备考的同时,也在进行自己的大学和专业的选择,有很多考生都想读计算机专业,觉得计算 ...

  5. 全中国的程序员,联合起来

    动笔之前,我思考良久,也许该文会石沉大海,或许能够激发起全中国程序员的同感,以图焕发出中国IT行业的新希望. 我将自己的想法称之为"九州同注"计划,即我们全中国的程序员应该联合起来 ...

  6. 2022-2028全球与中国液相色谱软件市场现状及未来发展趋势

    本文研究全球及中国市场液相色谱软件现状及未来发展趋势,侧重分析全球及中国市场的主要企业,同时对比北美.欧洲.中国.日本.东南亚和印度等地区的现状及未来发展趋势.  2021年全球液相色谱软件市场销售额 ...

  7. 不远的将来刷脸付款可以普及全中国

    自进入2020年以来,小编在大街小巷上看到的刷脸支付设备越来越多了,像以前,虽然有一些比较大的商户都有安装,但是整体的一个使用率并不高,甚至于很多人不愿意使用刷脸付款.但是经过最近对一些商户老板的观察 ...

  8. 联想NBD白欲立:打造中国最靠谱物联网创业平台

    一直以来,对于很多IT创业者来说,资金短缺是首要问题,但拿到天使投资后,如何搞定供应链.代工厂商.营销体系甚至宣传体系,反而变成更难解决的问题,而在联想NBD创业平台出现后,创业者的这些问题开始得到解 ...

  9. 房地产已经绑架了中国经济和全中国的人民 ——何学林中国房地产大策划之一

    原创作者:何学林中国策划一人 为什么说房地产绑架了中国经济和中国人民呢? 首先,房地产绑架了所有的行业和全中国的人民,三百六十行,无论你是做哪一行的,都是被房地产绑架了.一个单位或一家企业首先要有办公 ...

最新文章

  1. 敏捷软件开发实践——估算与计划(01)
  2. 前端性能优化——从 10 多秒到 1.05 秒
  3. Struts(十):OGNL表达式(一)
  4. 网易云信亮相WOT, 打造“IM+连麦互动直播”云服务
  5. c++ static 关键字用法
  6. 看完微软大神写的求平均值代码,我意识到自己还是 too young 了
  7. matlab程序改为m文件名,在MATLAB中,程序文件的扩展名为.m,所以程序文件也称为M文件...
  8. 2014年自动化的个人感想
  9. 论ARMv7 Thumb-2指令集的性能(含Thumb指令集介绍)【转载】
  10. c语言张振国实验报告,基于VisualC的黄金分割法程序设计实验报告.doc
  11. 菜鸟教程 linux c,C 基本语法 | 菜鸟教程
  12. Excel数据分析高级技巧②——数据透视表(组合/切片器/计算字段/数据透视图/条件格式)
  13. 外贸出口管理系统亮点及重点
  14. 【论文笔记】视频分类系列 Temporal Relational Reasoning in Videos (TRN)
  15. Basic认证方式的配置
  16. rancher添加镜像库
  17. OpenHarmony命令行工具hdc_std使用总结
  18. (Linux目录操作命令)零基础小白学习_入门到精通03 程序员阿沐
  19. 2021-2025年中国卡波芬金行业市场供需与战略研究报告
  20. word中公式添加序号后字体变小问题的解决方案(2010和2016两个版本)

热门文章

  1. Qt文档阅读笔记|Qt工作笔记-QMutexLocker的使用(抛出异常也能解锁)
  2. python的坐标代码_基于Python的地图坐标服务接口调用代码实例
  3. Ubuntu 20.10安装docker
  4. 如何移植mysql数据库_如何把本地MySql数据库移植到远程服务器上
  5. mysql 不限定 ip_mysql 不指定 ip 的连接默认都是 localhost
  6. python 三维曲线拟合_基于三维数据和参数的Scipy曲线拟合
  7. 【README】回溯算法基本框架
  8. clone的fork与pthread_create创建线程有何不同pthread多线程编程的学习小结
  9. PyTorch之实现LeNet-5卷积神经网络对mnist手写数字图片进行分类
  10. redis设置密码(redis-cli)