前阵子,一条微博成功引起了我的注意:
没想到你竟是这样的虎扑!
正好我们也在做网站的数据分析案例,不如就用 Python 来分析下,虎扑你这个直男论坛到底是怎样的?
数据来源    
这个案例我们几个月前就有计划了,所以数据是之前采集的。
时间:2019.3.16-2019.6.22
(虎扑论坛只显示近三个月的帖子)
数据:
板块内容:共 101.4w 个帖子的概要数据
帖子内容:回复数大于 200,浏览数大于 5w 的 4.4w 个帖子
用户页面:29.9w(详细帖子数据中发帖回帖用户),其中 10w 有效数据(剩余 17.6w 未填写,1.4w 填地球)
说明一下,我们这里不可能获取到虎扑的全部数据,但作为一个抽样统计已经足够。其中帖子的详细内容由于请求量很大,我们就选取了其中回复和浏览都比较高的那部分帖子作为分析样本。
接下来就让我们来看一看详细的数据情况:
板块    
虽然虎扑名义上是个篮球论坛,但步行街(无主题闲聊区)的帖子占据了半壁江山。对比之下很悲凉的是中国足球论坛,基本没啥话题。
虽然主题数不如步行街,但看平均回帖数,篮球论坛还是名副其实。
发帖    
看每天日间发帖时间的分布,两个高峰:上午10点(上班摸鱼)和晚上21点(吃过饭躺床上)。上午高峰还有个原因,就是NBA比赛都是这个时间段转播的。
这是3个月来每天发帖总数的变化趋势,看得出在稳步上升。知道曲线上为啥会有定期的波峰吗?通常都是精彩比赛场次的日子。图上3个峰值的日子分别对应:火箭vs勇士、猛龙vs勇士、勇士vs猛龙 三场比赛。
热门帖子的浏览与回帖数分布。可以看出一个现象:浏览量大的贴,回帖数通常也很高;但回帖多的帖就未必都会有高浏览量(高回帖低浏览的基本都是抽奖贴)。
用户    
尽管有一半以上的用户没有在资料里选择性别,但从填写的这部分用户来看,直男论坛实锤没跑了。
这是一张声望>8000的用户分布散点图(在交互版本上会看得更直观,文末有地址),比较突出的是 张佳玮·信陵(声望最高)、视频综合站(发帖最多)
而从这张注册/在线时长的用户分布图上可以看到,“视频综合站”的在线时长却是很少的,可见这应该不是一个真人号。
从用户注册时间上来看,每年的新增用户都在上涨,20142017 年是虎扑增长较快的两年。
另外我们统计了用户声望和等级的前50排行,声望最高:张佳玮·信陵,等级最高:登等瞪等凳。图略,可详见动态图表演示页面。
地区    
东部和南部沿海省市JRs 的数量比较多,另外就是北京四川
全球范围来看,美国要远高于其他国外地区。(这里为了国外区域显示效果而降低了颜色范围,实际美国的用户和国内差了2个数量级)
各地区用户的平均在线时长,上海 JRs 最能肝。不过,平均数是可能被一些个别用户把数据拉高的,所以我们还加了中位数的统计,可以看到湖南的233是最高。
等级中位数,又是湖南第一。
声望中位数,还是湖南
发帖中位数,依然是湖南……
回帖中位数,不用我说,你们猜到是哪里了吧?
词云    
最后,我们来看下虎扑 JRs 这三个月的帖子中频率最高的词汇是什么(可点击查看大图):
项目介绍    
回到技术层面,关于这个项目的实现,简单说下思路:
项目思路
  1. 分析虎扑论坛页面,评价可获取数据,确定分析目标;

  2. 使用了 requests 和 scrapy 抓取相应数据, 并使用 pymongo 保存;

  3. 使用可视化工具 pyecharts,对数据进行可视化处理。

  4. 整理分析。

运行环境
  • python 3.7

  • windows 10

  • jupyter notebook

运行依赖包
  • requests

  • pyecharts

  • pymongo

  • scrapy

  • jieba

  • wordcloud

源码可在公众号里回复关键字虎扑。
查看交互演示页面也可把此地址复制到浏览器里访问,这是github在线渲染HTML页面的功能 (数据量大,在线加载会有点慢,手机流量慎入):
https://htmlpreview.github.io/?https://raw.githubusercontent.com/spiderbeg/hupu_data/master/hupu_html/one_piece_plates.html 

一个虎扑社区数据分析实战相关推荐

  1. 爬取虎扑社区-晒晒照片

    爬取虎扑社区-晒晒照片 网上看到这个消息,顺便想试试手就做了这个 环境是MacOS + Anaconda (python 3.7) 就是练练手,网不好的时候会有bug 提示:类型错误Attribute ...

  2. python虎扑社区论坛数据爬虫分析报告

    以下是摘自虎扑的官方介绍: 虎扑是为年轻男性服务的专业网站,涵盖篮球.足球.F1.NFL等赛事的原创新闻专栏视频报道,拥有大型的生活/影视/电竞/汽车/数码网上交流社区,聊体育谈兴趣尽在虎扑. 二.数 ...

  3. Python基础入门:从0完成一个宝可梦数据分析实战-Task4-阿里云天池

    Python基础入门:从0完成一个宝可梦数据分析实战-Task4-阿里云天池 〇.整体的学习感受 本篇数据分析实战的文案写得十分接地气,以一个大家都耳熟能详的卡通游戏ID作为范本素材,并且将数据分析的 ...

  4. JRs在看啥?- 虎扑社区用户行为分析

    前阵子,一条微博成功引起了我的注意: 没想到你竟是这样的虎扑! 正好我们也在做网站的数据分析案例,不如就用 Python 来分析下,虎扑你这个"直男论坛"到底是怎样的? 数据来源 ...

  5. 12个黑科技网站,每个都是十分良心了 zt – 步行街主干道 – 虎扑社区

    文章目录[隐藏] 12个黑科技网站,每个都是十分良心了 zt 社区 » 步行街 » 步行街主干道 12个黑科技网站,每个都是十分良心了 zt 972回复 /26亮  366618 浏览 1234567 ...

  6. 分享一个超nice的数据分析实战案例, “手把手”教学,收藏等于学会

    大家早上好,本人姓吴,如果觉得文章写得还行的话也可以叫我吴老师.欢迎大家跟我一起走进数据分析的世界,一起学习! 感兴趣的朋友可以关注我或者我的数据分析专栏,里面有许多优质的文章跟大家分享哦. 今天给大 ...

  7. 【Python爬虫练习】虎扑社区步行街版块首页信息爬取(BeautifulSoup+MongoDB)

    严正声明:爬虫仅用于学习研究,不做商业或者其它非法用途! 首先我们要爬取的网页地址为:https://bbs.hupu.com/bxj 页面的样子是这样的: 红色圈出来的部分就是我们所要爬取的内容信息 ...

  8. 爬取虎扑社区,存入MongoDB数据库

    直接上源代码,代码中有详细注释,顺便写了个mongodbAPI 更 多 爬 虫 教 程 请 移 步 \color{red}更多爬虫教程请移步 更多爬虫教

  9. 虎扑论坛用户数据分析报告

    原文:http://tecdat.cn/?p=4115 一.以下是摘自虎扑的官方介绍: 虎扑是为年轻男性服务的专业网站,涵盖篮球.足球.F1.NFL等赛事的原创新闻专栏视频报道,拥有大型的生活/影视/ ...

最新文章

  1. you have new email in /var/spool/mail/root/
  2. python做马尔科夫模型预测法_隐马尔可夫模型的前向算法和后向算法理解与实现(Python)...
  3. 汉诺塔python递归函数_关于python递归函数实现汉诺塔
  4. Java基础-IO流对象之数据流(DataOutputStream与DataInputStream)
  5. RTA广告能力的应用场景剖析
  6. 怎么在linux的cmd中运行c项目,如何在cmd窗口编译运行c语言程序?
  7. Python-异常处理
  8. 30 秒速成好莱坞黑客 -- 在 Linux 终端中伪造好莱坞黑客屏幕
  9. 关于单利模式的几种实现方式
  10. 2019年上海春运志愿服务启动 3000余名志愿者守护归乡路
  11. 四窗口能分布到四台显示器上吗? 回答 Galactica 的提问
  12. Eclipse汉化教程2021新版
  13. protues8.9安装【硬件课设】
  14. 机器学习项目实践——K-means聚类实现广告分析
  15. 阴历阳历的相互转换(支持1900~2100年) 1
  16. excel怎么统计相同名字的数量
  17. 职场常用的办公软件,操作很方便
  18. Linux命令之查看系统负载
  19. java websphere mq_如何在java中使用WebSphere MQ
  20. QT布局以及使用QSS

热门文章

  1. 谈女人 作者:张爱玲
  2. 铁路基因的传承与创新
  3. 2021年惠来一中高考成绩查询入口,2021年广东高考体检报告结果查询时间及查询网址入口...
  4. 深度学习GPU选购指南:哪款显卡配得上我的炼丹炉?
  5. 凌波微课|南农大资环学院钟山学术讲坛第五十四讲——特邀南京师范大学戴传超教授
  6. 操作指南丨利用IPFS相关技术/工具托管网站
  7. 引用RFM模型进行会员分析
  8. Firefox浏览器-渗透测试插件推荐
  9. 鬼谷八荒流派收集(4)核弹指
  10. 液化气瓶爆炸总发生,要为监管敲警钟