史上最全虎扑爬虫,带你看网络爬虫下的步行街
前言
本项目由 https://blog.csdn.net/sinat_22767969/article/details/82953774 而来,之前爬过各大高校的百度贴吧,本人也是位小jr,想着玩玩虎扑步行街吧嘿嘿~这次的数据是国庆的时候爬下来的,介于工作太忙没有写帖子,数据截止时间大致在2018年10月6日,也就是说这个时间点以后的帖子和用户不会出现在下面的统计中。
本文作者:陈超允;转载请注明出处
项目
项目为springboot 1.5.7版本,提供数据持久化,前端采用echart做数据分析图表展示。具体的技术栈如下:
- springboot 1.5.7
- springMVC+Rest+EChart...
- mybatis 3.4.6
- hikari 连接池
- webmagic 0.7.3(修改版,修复https问题与log优化 下载地址:https://download.csdn.net/download/sinat_22767969/10703880)
- mysql 5.7.17 (支持utf8mb4字符编码)
GitHub:https://github.com/chenchaoyun0/hpspider,觉得有用给个start哈~
快速启动
(1)克隆项目
git clone https://github.com/chenchaoyun0/hpspider.git
(2)修改数据库连接配置,执行DB初始化脚本,maven构建项目
mvn clean install -DskipTests
(3)启动爬虫
启动项目,访问 http://127.0.0.1:5099/swagger-ui.html ,执行 startSpider (注:若数据库中已有数据必须清空)
(4)配置
#爬取线程
spider.thread=${SPIDER_THREAD:80}
spider.run.async=${SPIDER_RUN_ASYNC:true}
#此配置可理解为要爬多少个帖子,虎扑只能访问到10200页,有时候不一定,
spider.post.size=${SPIDER_POST_SIZE:10200}
#爬取数据落库配置
#thread max size
perform.thread.pool.size=5
#queue max size
perform.queue.size=1000
虎扑爬虫数据分析
爬取过程
待程序执行一段时间后,如果你spider.post.size配的太大,则爬取的时间会很长
博主爬的时候配的是10200,放在服务器上面跑,开启爬虫500个线程,落库线程500,爬了有3天~~
帖子总数:120.7万,回复总数:1504.9万,JR(用户)总数:141.9万,下面的数据分析就是用的这些数据进行处理,帖子回复数点亮小于1就忽略掉了。
部分数据截图
数据分析
访问 http://127.0.0.1:5099 即可看到一个导航页面
下面做下比较有趣的数据分析与图形化展示
- 帖子标题的热点词汇
看看大家发帖经常使用的词汇,水平、zt(到底是主题?还是转帖?)、求助、女朋友哈哈,
- Jrs所在地分布柱形图
广东的JR是最多的哈~~~其次是北京,再看看女JR的情况
emmm,这里比较懒,没有做排序,当然,还是广东女JR最多了
- 男女比例分布
同样,性别未知的就是不填性别的,有一半多,再看一张图
实在是可怜~~~~不愧被称为直男一条街咳咳
- 年发帖量
当前,这里的2018年还没有过完,只是统计到2018年10月国庆期间
- 年里的月发帖量
通过此图可以看出,JRS在8月份的时候,热情高涨hhh
- 时发帖量
JR在晚上10点的时候发帖最频繁
- 时回复量
JRS在中午11点最活跃哈?
- NBA主队分布
其中有百分之82的人没有填自己的归属主队,再看一张图把未知的去掉后
看图说话~
- JR等级分布
- 2016年度的十大热帖
- 2017年度的十大热帖
原来大部分JR都想当程序员???emmm
- 2018年度的十大热帖
哈哈,2018年的热帖里,wyf 出现的也太多了吧
- 历史来十大热帖
历史来是指,2016~2018的,2015的数据比较少,也比较久远,爬不到了
- 2018年度点亮前十的回复
skr skr~~
- 粉丝最多的10大JR
张佳玮先生~~我什么时候能拥有你一半的粉丝。。。
- 粉丝最多的女JR
- 访问量前十的Jrs
emmm,这位大哥,竟然有快2亿的访问量。。。。可怕~~
- 访问量前十的女Jrs,看看哪位女jr
- 社区声望排行
- JR设备分布比例
安卓用户和苹果用户不分上下哈~~
- jrs加入时间分布曲线图
2015年是最巅峰的时期啊~~
- 十大发帖量最多的JR
- 帖子回复的词云
绿化一条街,竟然没"绿"字~~~我检查下我的程序。。。。发现真的没有,JR们都喜欢发图吧 ~
- JR昵称词云
爱字~~~~看来JRS跟我一样,为情所困,不知道到底选哪个女朋友好,愁死个人了~~~tx
over!!好累的说!欢迎步行街的猿儿JR给个start
本项目gitHub地址:https://github.com/chenchaoyun0/hpspider
博主邮箱:873692191@qq.com,欢迎JR骚扰与探讨各种奇淫技巧~~
PS:我是一只Java猿儿
史上最全虎扑爬虫,带你看网络爬虫下的步行街相关推荐
- 史上最全鸡鸭美味做法,看着都流口水了!
史上最全鸡鸭美味做法,看着都流口水了! [豉油鸡] 做法:1.姜切丝,蒜切末备用:2.锅内倒入适量花生油.酱油.香油.盐:3.锅内的料调和均匀,把鸡肉放锅内使每块鸡肉上都沾上酱汁:4.盖上锅盖中火 ...
- 史上最全二叉查找树详解——带详细图解
1.二叉查找树的性质与规则 若一个结点的左子树不为空,则它左子树上所有的结点都小于该结点:若一个结点的右子树的不为空,则它右子树上所有的结点都大于该结点 2.二叉查找树的创建 a.二叉查找树的结点类 ...
- 史上最全的光模块介绍,看这一篇就够了!
光模块的工作原理 光模块(Optical Modules)作为光纤通信中的重要组成部分,是实现光信号传输过程中光电转换和电光转换功能的光电子器件. 光模块工作在OSI模型的物理层,是光纤通信系统中的核 ...
- 史上最全的python的web开发和网络编程【附属详细解释+案例】
文章目录 1. IP 地址 2. 端口 2.1 端口 介绍 2.2 端口号 介绍 3. TCP 3.1 为什么要用TCP? 3.2 TCP 和 UDP 的 解释 3.3 TCP 步骤 和 特点 4. ...
- 手把手教你:【史上最全】C++开发环境搭建:win732位下VS2010+Boost_1_53_0+Qt5.2+MySql搭建
我想说:这两个多星期走得很辛苦,没有人告诉我win732位系统下VS2010+Boost_1_53_0+Qt5.2+MySql开发环境如何搭建,自己一步一步摸索,重装了无数遍系统,试了几十种方法,才艰 ...
- 联通开通流量不显示无服务器,史上最全的联通流量自助开通方法!
原标题:史上最全的联通流量自助开通方法! 天底下的流量包都在这儿,爱要不要!你的流量能HOLD住吗?哈哈,小编给你支招:以下就是给你推荐的超好用流量包订购方法!各位看官您瞧好了! 流量月包 兵马未动, ...
- Python爬虫人工智能大数据全栈视频史上最全合辑教程分享!
Python爬虫人工智能大数据全栈视频史上最全合辑教程分享! 毫无疑问Python是这两年最火的编程语言,不仅容易上手,且在多个行业都可应用.尤其今年人工智能及大数据的发展,Python将会展现更多的 ...
- 一文带你学会linux系统 史上最全linux命令大全
一文带你学会linux系统 史上最全linux命令大全 文章目录 linux系统简介 linux命令 1.启动网络命令 2.pwd命令 2.ls命令 3.cd命令 4.mkdir命令 5.rmdir命 ...
- java byte char io流_一文带你看懂JAVA IO流,史上最全面的IO教学
原标题:一文带你看懂JAVA IO流,史上最全面的IO教学 一.IO流是什么 惯例引用百科的回答 流是一种抽象概念,它代表了数据的无结构化传递.按照流的方式进行输入输出,数据被当成无结构的字节序或字符 ...
最新文章
- 数据库查询速度极慢【个人工作问题解决过程记录】
- linux下修改组的密码,Linux用户和组的操作(八) 修改用户密码 passwd
- 前端学习(515):两列布局第二种方案得优缺点
- 【Java】数据结构—— 单链表和双链表
- Cannot modify header information问题的解决方法【新浪云经常遇到的错误】
- 使用git管理自己的代码--简单使用流程
- 后台产品基本功:RBAC权限后台角色与权限设计
- 【毕设】ASP.net校友录毕业设计(源代码+论文+开题报告+答辩PPT)
- TCPIP详解三次握手和四次挥手
- 数据分析:RFM模型
- 微型计算机外观分为,2015计算机应用基础单选练习题1.1
- 2020.01.18【NOIP提高组】模拟B 组——总结——探险者拉罗
- 友盟分享长图片,如何截取长图片去分享
- [算法]Fibonacci数列O(n)和O(lgn)的解法
- 图片识别,人脸识别,植物识别,花卉识别,签到小程序,借助百度AI智能识别功能实现图片识别,人脸识别小程序
- 深入浅出程序设计竞赛笔记(草稿
- Mysql支持translate函数吗_Oracle-函数-translate
- SHAMANIC Heil Amazonas-DschungelSHAMA
- MAF-YOLO: Multi-modal attention fusion based YOLO forpedestrian detection
- PowerDesigner16.5 生成MySQL 数据库模型
热门文章
- Android 实现类似于QQ空间相册的点击图片放大,再点后缩小回原来位置
- oracle两个innerjoin,INNER JOIN / left Join 联接多个表
- 艾美捷小鼠IFN-γ ELISpot试剂盒,极速,不敏感检测
- 第7章 集成Redis缓存
- 爱普生L3116打印机不进纸拆机探索(上)
- 滴滴开源的项目比腾讯还多?一起来看看滴滴开源的项目!
- IDEA插件CamelCase使用技巧:下划线转驼峰及大小写转换插件和快捷键
- AutoLink开源平台源码组织结构
- 淘宝搜索排名规则是怎样的(由亿买网整理编辑)
- jquery 获取 id 含有 中文、其他特殊字符的元素.html