前言

本项目由 https://blog.csdn.net/sinat_22767969/article/details/82953774 而来,之前爬过各大高校的百度贴吧,本人也是位小jr,想着玩玩虎扑步行街吧嘿嘿~这次的数据是国庆的时候爬下来的,介于工作太忙没有写帖子,数据截止时间大致在2018年10月6日,也就是说这个时间点以后的帖子和用户不会出现在下面的统计中。

本文作者:陈超允;转载请注明出处

项目

项目为springboot 1.5.7版本,提供数据持久化,前端采用echart做数据分析图表展示。具体的技术栈如下:

  • springboot 1.5.7
  • springMVC+Rest+EChart...
  • mybatis 3.4.6
  • hikari 连接池
  • webmagic 0.7.3(修改版,修复https问题与log优化 下载地址:https://download.csdn.net/download/sinat_22767969/10703880)
  • mysql 5.7.17 (支持utf8mb4字符编码)

GitHub:https://github.com/chenchaoyun0/hpspider,觉得有用给个start哈~

快速启动

(1)克隆项目

git clone https://github.com/chenchaoyun0/hpspider.git

(2)修改数据库连接配置,执行DB初始化脚本,maven构建项目

mvn clean install -DskipTests

(3)启动爬虫

启动项目,访问 http://127.0.0.1:5099/swagger-ui.html ,执行 startSpider (注:若数据库中已有数据必须清空)

(4)配置

#爬取线程
spider.thread=${SPIDER_THREAD:80}
spider.run.async=${SPIDER_RUN_ASYNC:true}
#此配置可理解为要爬多少个帖子,虎扑只能访问到10200页,有时候不一定,
spider.post.size=${SPIDER_POST_SIZE:10200}
#爬取数据落库配置
#thread max size
perform.thread.pool.size=5
#queue max size
perform.queue.size=1000

虎扑爬虫数据分析

爬取过程

待程序执行一段时间后,如果你spider.post.size配的太大,则爬取的时间会很长

博主爬的时候配的是10200,放在服务器上面跑,开启爬虫500个线程,落库线程500,爬了有3天~~

帖子总数:120.7万,回复总数:1504.9万,JR(用户)总数:141.9万,下面的数据分析就是用的这些数据进行处理,帖子回复数点亮小于1就忽略掉了。

部分数据截图

数据分析

访问 http://127.0.0.1:5099 即可看到一个导航页面

下面做下比较有趣的数据分析与图形化展示

  • 帖子标题的热点词汇

看看大家发帖经常使用的词汇,水平、zt(到底是主题?还是转帖?)、求助、女朋友哈哈,

  • Jrs所在地分布柱形图

广东的JR是最多的哈~~~其次是北京,再看看女JR的情况

emmm,这里比较懒,没有做排序,当然,还是广东女JR最多了

  • 男女比例分布

同样,性别未知的就是不填性别的,有一半多,再看一张图

实在是可怜~~~~不愧被称为直男一条街咳咳

  • 年发帖量

当前,这里的2018年还没有过完,只是统计到2018年10月国庆期间

  • 年里的月发帖量

通过此图可以看出,JRS在8月份的时候,热情高涨hhh

  • 时发帖量

JR在晚上10点的时候发帖最频繁

  • 时回复量

JRS在中午11点最活跃哈?

  • NBA主队分布

其中有百分之82的人没有填自己的归属主队,再看一张图把未知的去掉后

看图说话~

  • JR等级分布

  • 2016年度的十大热帖

  • 2017年度的十大热帖

原来大部分JR都想当程序员???emmm

  • 2018年度的十大热帖

哈哈,2018年的热帖里,wyf 出现的也太多了吧

  • 历史来十大热帖

历史来是指,2016~2018的,2015的数据比较少,也比较久远,爬不到了

  • 2018年度点亮前十的回复

skr  skr~~

  • 粉丝最多的10大JR

张佳玮先生~~我什么时候能拥有你一半的粉丝。。。

  • 粉丝最多的女JR

  • 访问量前十的Jrs

emmm,这位大哥,竟然有快2亿的访问量。。。。可怕~~

  • 访问量前十的女Jrs,看看哪位女jr

  • 社区声望排行

  • JR设备分布比例

安卓用户和苹果用户不分上下哈~~

  • jrs加入时间分布曲线图

2015年是最巅峰的时期啊~~

  • 十大发帖量最多的JR

  • 帖子回复的词云

绿化一条街,竟然没"绿"字~~~我检查下我的程序。。。。发现真的没有,JR们都喜欢发图吧 ~

  • JR昵称词云

爱字~~~~看来JRS跟我一样,为情所困,不知道到底选哪个女朋友好,愁死个人了~~~tx

over!!好累的说!欢迎步行街的猿儿JR给个start

本项目gitHub地址:https://github.com/chenchaoyun0/hpspider

博主邮箱:873692191@qq.com,欢迎JR骚扰与探讨各种奇淫技巧~~

PS:我是一只Java猿儿

史上最全虎扑爬虫,带你看网络爬虫下的步行街相关推荐

  1. 史上最全鸡鸭美味做法,看着都流口水了!

    史上最全鸡鸭美味做法,看着都流口水了!   [豉油鸡] 做法:1.姜切丝,蒜切末备用:2.锅内倒入适量花生油.酱油.香油.盐:3.锅内的料调和均匀,把鸡肉放锅内使每块鸡肉上都沾上酱汁:4.盖上锅盖中火 ...

  2. 史上最全二叉查找树详解——带详细图解

    1.二叉查找树的性质与规则 若一个结点的左子树不为空,则它左子树上所有的结点都小于该结点:若一个结点的右子树的不为空,则它右子树上所有的结点都大于该结点 2.二叉查找树的创建 a.二叉查找树的结点类 ...

  3. 史上最全的光模块介绍,看这一篇就够了!

    光模块的工作原理 光模块(Optical Modules)作为光纤通信中的重要组成部分,是实现光信号传输过程中光电转换和电光转换功能的光电子器件. 光模块工作在OSI模型的物理层,是光纤通信系统中的核 ...

  4. 史上最全的python的web开发和网络编程【附属详细解释+案例】

    文章目录 1. IP 地址 2. 端口 2.1 端口 介绍 2.2 端口号 介绍 3. TCP 3.1 为什么要用TCP? 3.2 TCP 和 UDP 的 解释 3.3 TCP 步骤 和 特点 4. ...

  5. 手把手教你:【史上最全】C++开发环境搭建:win732位下VS2010+Boost_1_53_0+Qt5.2+MySql搭建

    我想说:这两个多星期走得很辛苦,没有人告诉我win732位系统下VS2010+Boost_1_53_0+Qt5.2+MySql开发环境如何搭建,自己一步一步摸索,重装了无数遍系统,试了几十种方法,才艰 ...

  6. 联通开通流量不显示无服务器,史上最全的联通流量自助开通方法!

    原标题:史上最全的联通流量自助开通方法! 天底下的流量包都在这儿,爱要不要!你的流量能HOLD住吗?哈哈,小编给你支招:以下就是给你推荐的超好用流量包订购方法!各位看官您瞧好了! 流量月包 兵马未动, ...

  7. Python爬虫人工智能大数据全栈视频史上最全合辑教程分享!

    Python爬虫人工智能大数据全栈视频史上最全合辑教程分享! 毫无疑问Python是这两年最火的编程语言,不仅容易上手,且在多个行业都可应用.尤其今年人工智能及大数据的发展,Python将会展现更多的 ...

  8. 一文带你学会linux系统 史上最全linux命令大全

    一文带你学会linux系统 史上最全linux命令大全 文章目录 linux系统简介 linux命令 1.启动网络命令 2.pwd命令 2.ls命令 3.cd命令 4.mkdir命令 5.rmdir命 ...

  9. java byte char io流_一文带你看懂JAVA IO流,史上最全面的IO教学

    原标题:一文带你看懂JAVA IO流,史上最全面的IO教学 一.IO流是什么 惯例引用百科的回答 流是一种抽象概念,它代表了数据的无结构化传递.按照流的方式进行输入输出,数据被当成无结构的字节序或字符 ...

最新文章

  1. 数据库查询速度极慢【个人工作问题解决过程记录】
  2. linux下修改组的密码,Linux用户和组的操作(八) 修改用户密码 passwd
  3. 前端学习(515):两列布局第二种方案得优缺点
  4. 【Java】数据结构—— 单链表和双链表
  5. Cannot modify header information问题的解决方法【新浪云经常遇到的错误】
  6. 使用git管理自己的代码--简单使用流程
  7. 后台产品基本功:RBAC权限后台角色与权限设计
  8. 【毕设】ASP.net校友录毕业设计(源代码+论文+开题报告+答辩PPT)
  9. TCPIP详解三次握手和四次挥手
  10. 数据分析:RFM模型
  11. 微型计算机外观分为,2015计算机应用基础单选练习题1.1
  12. 2020.01.18【NOIP提高组】模拟B 组——总结——探险者拉罗
  13. 友盟分享长图片,如何截取长图片去分享
  14. [算法]Fibonacci数列O(n)和O(lgn)的解法
  15. 图片识别,人脸识别,植物识别,花卉识别,签到小程序,借助百度AI智能识别功能实现图片识别,人脸识别小程序
  16. 深入浅出程序设计竞赛笔记(草稿
  17. Mysql支持translate函数吗_Oracle-函数-translate
  18. SHAMANIC Heil Amazonas-DschungelSHAMA
  19. MAF-YOLO: Multi-modal attention fusion based YOLO forpedestrian detection
  20. PowerDesigner16.5 生成MySQL 数据库模型

热门文章

  1. Android 实现类似于QQ空间相册的点击图片放大,再点后缩小回原来位置
  2. oracle两个innerjoin,INNER JOIN / left Join 联接多个表
  3. 艾美捷小鼠IFN-γ ELISpot试剂盒,极速,不敏感检测
  4. 第7章 集成Redis缓存
  5. 爱普生L3116打印机不进纸拆机探索(上)
  6. 滴滴开源的项目比腾讯还多?一起来看看滴滴开源的项目!
  7. IDEA插件CamelCase使用技巧:下划线转驼峰及大小写转换插件和快捷键
  8. AutoLink开源平台源码组织结构
  9. 淘宝搜索排名规则是怎样的(由亿买网整理编辑)
  10. jquery 获取 id 含有 中文、其他特殊字符的元素.html