没错,我准备用我高考60分的数学水平以及小学生都不如的表达水平加上只会HELLO WORLD的编程水平来一次关于QQ空间动态的分析。

一、概况

本次爬虫的对象为我学校的一个“表白墙”(以下简称墙墙)在2017年发表的所有的说说。

1.1 整体情况

首先先来看一下我这次抓了多少数据:

爬虫启动于2017年12月31日 15:30

因故障停止于2017年12月31日 23:30 - 2018年01月01日 00:30 之间(原谅我忘记在爬虫日志里加上时间了,所以具体啥时候停的我也不知道)

最早一条数据是 2016/11/6 23:01:21 的一条说说

最晚数据是 2017/12/31 15:26:09 的一条回复

此次总共抓取了 17,229 条说说, 629,012 条点赞, 167,617 条回复

删去2016年的数据后,剩余 说说15,311条 ,回复163637条

可以看到,墙墙在2017年发表了 17,229 条说说,共收到 167,617 条回复,所发表说说总共被点赞了 629,012 次,所有说说总共被浏览了  30,907,875 次。

1.2 单条数据

看完了整体的数据,下面就是单条说说的数据:

单条说说的最多与平均值

*单条说说浏览量最大值为 9970 次,嗯,比我从玩qq开始到现在的说说浏览量都大,不愧是我们学校的大V啊。

最有意思的是,平均每条说说浏览量为 2018 这似乎预示着什么~

二、说说分析

2.1 内容

2.1.1 整体

对于墙墙2017年发布的 17,229 条说说都是什么内容,相信大家都很好奇。(注1)

别着急,我也很好奇,所以我对所有的说说内容进行了整合做了词频分析,得到了如下结果:

词频统计1

词频统计2

嗯,可以看到我做了两个不同的词频分析,其中一个是国内公司提供的(图2,分词较好,但词组过少),另外一个是国外公司提供的(图1,分词较差,但数据比较好看)。

做成词云还是蛮好看的:

说说词云 (注2)

可以看到,说说内容大多数是关于咨询问题、寻物、吐槽的。

表白墙已经变成了“询问墙”。

2.1.2 标签

墙墙发表说说时一般都会带上标签,诸如 【墙友询问】、【墙友表白】之类的。

于是我也对墙墙说说的TAG进行了统计,结果如下:

TAG统计

除去无标签的和一些数量极少的标签,得到的结果如图。

“墙友询问” 这个“大佬”占了所有说说的一半,剩下的则被 “寻物”、“招领”、“吐槽”, 所瓜分。

而作为墙墙名字来源的“表白”只能屈居于第4位,前三名都没有挤进去。

所以说,表白墙虽然名为表白实际却是借着表白的幌子为人民服务(#滑稽

2.2 发表时间

2.2.1 每月

月发表说说

可以看到月发表说说起伏较大,但是结合实际来看的话就不难想象为啥会这样了:

1-2 月正是放假的时候,所以这两月的说说发表量达到了一年中最低的时候。

而同样作为假期的7-8月却比1-2月说说多,我想是因为7-8月有很多大一新生,相应的问题就会变得多,所以说说发表量对应的就多一点。

而同样是上学期间的3-6月与9-12月说说发表量差距如此之大,除了下半年是大一新学期外,我想示因为下半年有话题性的节日比较多,且临近跨年,所以大家都比较骚动,因此你懂的。

至于11月为什么会达到顶峰,我也想不明白...也许对11月的说说内容分析一下就知道了吧,有兴趣的可以自己分心一下,我在此就不麻烦了。

日发表说说

为什么一个月中每天说说发表数量起伏这么大?恕我直言,我也不知道,但是可以明显的看到的是,从每月月初到月底整体的说说数量的趋势是呈下降趋势的。也许是因为不是每个月都有31天?

2.2.2 周与日

说说发表时段

周发表说说

每周发表的说说数量相对来说比较平稳,但是在周末时会出现大幅度的下降,至于为啥不用说大家也明白。

而每天说说发表的时间也是比较平稳(除掉睡觉时间的话),然后,每次小高潮都是在下课时间(10:00、12:00、16:00、18:00)......原来我校学生上课很少玩手机啊。

至于 22:00 达到了一天中的最高潮,我想是因为21点下课(自习)后回宿舍折腾一阵后就想发发牢骚吧。

三、回复

3.1 内容

和说说一样,我也对所有的回复内容进行了整合之后做了词频分析,结果就不放上来了(涉及到大量隐私),直接上词云(其实我词云都不想放的)!

回复词云

是不是被这个大大的 e400824 吓到了?猜猜这是什么?提示一下,这是一个emoji代码哦。

除开这个emoji,最显目的就是满屏的哈哈哈哈哈哈哈哈哈哈哈哈哈哈了!

哈哈~看来咱学校都是爱笑的孩子啊(其实是分词的问题了)

终于在这个图里看到了“喜欢”、“表白”等字眼了,看来表白墙的初衷没被忘记啊。

3.2 时间

回复时间段

看来回复的时间趋势和发表说说的时间趋势非常相像啊。所不同的是,回复大多是在晚上21点以后,也许是大伙白天都忙于学业无法自拔,只有晚上才有时间刷刷动态吧。

特别需要指出的是,回复在0点还有很大的数据,1点后才逐渐趋于无,而我们学校是23:30熄灯,也就是说,即使熄灯了还是有很多人选择玩手机而不是睡觉。

而一天中回复开始上升的时候是从6点开始的,也就是说咱学校的学生都喜欢早起,并且会在起来后刷刷空间醒醒瞌睡。

四、点赞

4.1 时间

月点赞数据

和说说发表的时间趋势差不多,点赞的高潮和低谷依然是分别在学期和假期,因此在此就不多说了。

4.2 点赞用户

(注3)

4.2.1 性别

点赞性别

在剔除没有标明性别的人后,男女点赞比例约为 6.5:3.5 ,这与我在开学时对我们学校大一新生的男女比例做的统计差不多,也就是说,点赞与性别没有太大的关系。

4.2.2 星座

点赞者的星座

在剔除了没有标记星座的用户后,得到了如上图的数据。

没想到我巨蟹座居然是倒数第二个。我还以为只有我一个人不喜欢胡乱点赞呢,看来是巨蟹座的通病??

4.2.4 城市

点赞者地图

同样的,和我开学时对大一新生做的地址分析情况差不多,大多数点赞这是山西或附近城市的,南方的城市有量少但密集的分布,而北方正相反,量大而较为稀疏。

与我开学时做的分析相悖的是在南方居然出现了柳州、贵阳、昆明等城市的“点赞狂魔”,要知道,这些城市的学生并不是很多。

下面带大家来看一看点赞者城市排名:

点赞地址排名

不出意外,前三全是山西省的。

而第五名的 卡洛 ,我查了一下,是爱尔兰的一个城市...

将它剔除后,前五都是山西的,哦不!前九都是山西的...

而根据我开学时的统计,大一新生中,来自山西运城的最多,而从上图也体现出了这一点,果然还是人多力量大啊。

五、墙墙最TOP

声明:该项只为娱乐,其中数据无法保证准确性。

如有不当言论请联系我删除。

1.“点赞是一种态度”

点赞,网络用语,表示“赞同”、“喜爱”。该网络语来源于网络社区的“赞”功能。送出和收获的赞的多少、赞的给予偏好等,在某种程度能反映出你是怎样的人以及处于何种状态。 --百度百科

是时候揪出真正的“点赞狂魔”了!

点赞狂魔

从图中可以看到,2017年点赞最多的用户居然在一年内点赞了 11,936 次,平均每小时点赞 1.36 次。这绝对是墙墙真爱啊!

下面我们来看看点赞超过 5k 的用户有哪些:

点赞狂魔,5k以上

所以,荣获 “点赞是一种态度” 奖的是:

516939***  (N***-旗舰店)

小声嘀咕:原来是打广告的啊,怪不得点赞这么勤快

2.“我不发表点意见就浑身难受”

评论,针对于事物进行主观或客观的自我印象阐述。评论易让人听到不利于自己的一面,因此评论的话语容易产生对方的逆反心理。但由于可以较快的表达自己的想法及感受,广为被大众所使用,实则是说者过瘾,听者闹心。

“我不同意你的观点,但我誓死捍卫你说话的权利”     --伊夫林·比阿特丽斯·霍尔

所以,就让我们揪出最喜欢评论的大佬,捍卫它的权利吧!

回复数据,竖轴为QQ号,被当成数字处理了,所以是xxM

所以,最喜欢发表评论的人在2017年总共评论了 1,130 次,而2017年参与墙墙说说的讨论的所有人平均只评论了 20.53 次。也就是说,这个人评论次数是平均值的57倍!

再看,评论了 500 次以上的人有13个!看来咱学校果然人才辈出啊,看到啥都喜欢“批判一番”。

回复数据(500以上)

因此,荣获 “我不发表点意见就浑身难受” 奖的是:

75423**** (******表白墙)   

怪不得这么勤奋,原来是本尊啊......

3.“我是最尽职的墙墙”

其实,表白墙是学校的一个神秘组织所负责的,并不只是一个人。

而他们一般都是以手机标志来区分不同的成员的。

所以,就让我们找出最尽职的墙墙吧!(此项数据存在较大的争议性,因为尽职与否应该是从多方面来考虑的,而我只考虑了发表说说的数量。虽然发表说说的数量能从一定程度上反映出不同负责人的值班时间的长短,但并不能客观反映是否尽职)

手机标志数量统计

从上面的图中能够很明显的看到,有很多标志实际上是重复的,应该就是同一个人,所以我将疑似重复的数据合并后得到下面的数据:

合并后的数据统计

这下就清楚多了,第一名居然一个人就发了 2,550 条说说,是第二名的两倍多!实乃最负责之首啊!而平均每个负责人发表的说说数量是100条左右,按照每个人有5个标志来算的话,也就是说“墙墙”这个神秘组织大概有30个负责人,果然是一个庞大神秘组织,要知道我班也就差不多30个人而已。

最终, “我是最尽职的墙墙” 奖是属于 梦幽吟风墙 的!

4.“我是最受欢迎的”

说说是QQ空间包含的一项及时发表心情,言论功能,必须在可以连接Internet的情况下使用且有字数格式限制。  --百度百科

关于怎么界定最受欢迎的说说,我思考了很久(其实也就不到5s就草率的决定了)终于得出了我的算法,至于怎么算的,先别急,我们先来看看一些数据。

说说top榜

以上数据中的那串“乱码”是说说id,后面数字是相应的数值。

也就是说,现在能够用来判断的参数有4个,分别是 转发、回复、浏览、点赞。而什么算最受欢迎的呢?我觉得应该综合这5个数据来判断,但是也不能简单的求和或求平均值。那么怎么办?

当然是按照重要性来加权了!

按照我的想法,转发>回复>点赞>浏览。

ok,按照这样算后,得到如下数据:

最受欢迎的说说

因为前三项数据比较接近,所以我决定 “我是最受欢迎的” 奖的获奖说说有三个:

1:14c1f42c041ac559be8c0000

第一名

2:14c1f42c398f25594fbf0900

第二名

3:14c1f42caf5e295a256a0e00

第三名

至此,本次分析结束!

注意:

1.因为墙墙发的说说基本上都是发的聊天截图,而文字只有大致的梗概,所以说说内容的分析并不准确,应该将截图经过OCR后提出完整数据再分析,但是因为某些原因我并没有这样做。

2.此词云使用的是国外的网站提供的服务,所以分词数据不太准确,但是这样看起来更加美观,所以词云我没有选用更为准确的国内版,而是用的现在这个。

3.关于文中提到的我开学时做的新生数据分析,因为涉及到新生隐私,所以我并没有公开,只是在几个好友中小范围传播过。说到这我还是得批判一下学校,居然把新生数据就这样公开到了网上!完全不顾我们学生的隐私,一开始我还以为所有学校都是这样的,直到有一天我准备爬爬基友所在学校的新生数据,我才发现他所在学校的新生数据并没有公开,而且查询其他东西也得登陆才能查,我还以为他们学校是个例,于是我又看了基友B的学校...基友C的学校...我去!原来我的学校才是个例,居然只有我的学校公开了数据!

4.因为我的技术不够,且数学水平不够,所以能够分析的只有这些数据,更多高深的内容我也不懂,也弄不出来,如果各位大佬有什么好的建议希望能不吝赐教~多的不说了,为了折腾这个我已经弄了好几天了,下周就考试了,而我还没开始预习...再不预习怕是高数要考10分了~

词云&词频分析:https://timdream.org/wordcloud/

图表制作:Tableau、Excel

需要QQ空间说说爬虫的请至我的Github获取:QQzone_crawler

equationl 制作。

联系我:admin@likehide.com

原文发表于 2018.01.02

稍后将补充对爬虫的分析以及如何爬取的教程。

请关注我的博客及时获取信息。

转载于:https://my.oschina.net/equationl/blog/1618059

【伪大数据】对QQ空间指定好友2017年说说数据的分析相关推荐

  1. 使用vb脚本实现QQ空间相册好友查验功能

    使用vb脚本实现QQ空间相册好友查验功能 1.思路 a.需要创建一个变量(执行方法) b.需要使用输入框方法,用来接受用户输入的内容 c.给予用户输入的内容进行判断 d.当判断结果为true时,弹出一 ...

  2. python分析qq好友_Python2.7获取QQ空间部分好友

    首先需要安装curl工具,然后复制curl 参考http://blog..net/gsls200808/article/details/46933307 浏览器打开http://user.qzone. ...

  3. Python3.6获取QQ空间全部好友列表

    首先要处理的是gtk算法:从上次分析以来代码并没有变 登录QQ空间后搜索gtk字符串,在三个js中出现了 operation.50303.js gdtlib.20160810.js index.js ...

  4. Python2.7获取QQ空间部分好友

    首先需要安装curl工具,然后复制curl 参考http://blog.csdn.net/gsls200808/article/details/46933307 浏览器打开http://user.qz ...

  5. 在线python爬取好友qq空间_Python3.6获取QQ空间全部好友列表

    首先要处理的是gtk算法:从上次分析以来代码并没有变 登录QQ空间后搜索gtk字符串,在三个js中出现了 /* |xGv00|e5808eb94a2bdffe3aae60cd22c5efe2 */ d ...

  6. Selenium学习——QQ空间点赞好友说说

    项目要求,给自己空间所有好友发的说说点赞&给单个好友所有说说点赞 遇到的问题: 问题一:只能获取头几条说说,其他获取不到原因:"feed_page_container"这个 ...

  7. 腾讯大放招,QQ空间也能发红包,一大波网友玩嗨了

    无意中在空间看到好友的空间居然在发红包,然后看他的空间的关注量刷刷的猛涨,腾讯这招引流太牛了. 手机qq空间居然能发红包 当我在手机qq空间客户端去领的时候,居然提示让我下载最新版的手机qq,然后我就 ...

  8. Python2.7获取QQ空间全部好友

    通过Wireshark抓包,QQ空间有个获取全部好友的接口 URL地址 http://m.qzone.com/friend/mfriend_list?g_tk=1399550749&res_u ...

  9. 借助qq空间拿好友qq号,下载头像,做成照片墙

    首先可以通过电脑登陆qq,浏览器进入空间 点击进入空间 按f12进入开发者模式,默认在network,不用变,点一下2处清理干净,点一下3(好友),右侧会刷新出好多链接 上下拖动,找到2的链接,如果看 ...

最新文章

  1. 华为201万年薪招毕业生!来自这些高校
  2. python和c哪个好找工作-Python和c哪个效率高一些
  3. 【组合数学】指数生成函数 ( 指数生成函数求解多重集排列示例 )
  4. php 线程锁,如何使用python线程锁(实例解析)
  5. AtCoder AGC032D Rotation Sort (DP)
  6. JAVA——保持cookie登录状态的HttpClient封装工具类
  7. 小白级OpenCV入门
  8. 【千字分析】剑指 Offer 47. 礼物的最大价值
  9. 360网络修复工具_为什么大家都在骂360,但是360依旧是很强?
  10. JEEWX微信开发更便捷,Ngrok 内网穿透利器应用
  11. Linux文本查看命令之cat
  12. android ANR产生原因和解决办法
  13. Eclipse build Android时不生成apk问题解决方法
  14. 《梦断代码》阅读笔记之第0章和第1章
  15. Enterprise Architect 中文快速入门
  16. 工作中如何进行接口测试
  17. 【发布】Bangumi动画搜索一键跳转AniDBMyAnimeListANNTMDB和动漫花园等BT站在线播放站
  18. Vue3项目报错[vue/no-template]
  19. 为什么毕业后五年,你们的贫富差距越拉越大
  20. PAT_乙级_1007_筱筱

热门文章

  1. 自动驾驶3-1: 自动驾驶汽车的安全保障 Safety Assurance for Self-Driving Vehicles
  2. SQL练习题_ 查询每个部门工资最高的前两名的姓名和部门名称【多测师_何sir】
  3. iMAC——U盘全新重装Mac系统
  4. 中情局窃密手段曝光:“哭泣天使”能让电视假关机变成窃听器
  5. 服务器系统对比、数据库对比、后台开发语言对比
  6. Discuz! X2.5 数据字典
  7. [XUPT_ACM]寒假第二次比赛题解
  8. Pycharm 系统找不到指定的路径 报错!!
  9. Unity中使用插件在地形中制作道路
  10. eclipse安装nodejs插件nodeclipse