前几天,一直在学习爬虫,然后最近想到了一个不错的idea,想以这个小demo来结束爬虫的学习。

是这样的:登入qq空间,爬取自己或者好友的所有说说记录,然后区统计分析一共发了多少说说,每条说说的评论有多少,谁评论的最多,有多少赞,谁赞最多,还有可以找出你的qq好友中男女比例多少,来自哪里,什么星座等等。

这里讲下具体思路,具体代码我托管到github,有兴趣的朋友可以去fork,https://github.com/jerry-sc/QQZone.git

这次爬虫并没有使用之前博客提到的scrapy,而是转向了JAVA,用的框架叫做webmagic。可能大家对这个框架比较陌生,毕竟这个出现也没多久,而且是一个大牛业余开发的,用的人也不是特别多,我也是偶然百度的时候搜到的。它的主页是http://webmagic.io/ 大家有兴趣可以看下,我个人觉得写得还是非常棒的,它也是模仿scrapy这一成熟框架起来的,如果你对java比较了解,遇到问题看看源码,会让你对爬虫的体系有更近一步的了解,如果你对scrapy比较了解,那么我想你只要掌握写基本的java语法知识,那么必会轻松掌握此框架。

QQ空间就像新浪微博一样,如果要实现模拟登入,你一定要花很多功夫去了解里面的加密技术等,这种高端技术吾等小白还有很长一段路要走,所以我这里用最笨的办法,就是登入后获取cookie然后手动填入请求头中。

简单的分析下网页源代码可以发现,qq的说说信息,都是js带过来的,所以这里要面对的是如何从js文件中抽取信息,好在webmagic的作者在其框架介绍里面写了一篇如何爬取动态网页的博客,收获实在是太多了,http://webmagic.io/docs/zh/posts/chx-cases/js-render-page.html 这是地址,即使你不用此框架也没事,相信看了后,定会对动态网页的爬取获得经验。关于爬取URL的说明,我这里也不多说了,大家可以结合我的代码看看(我承认代码有点乱,不过我非常欢迎大家和我交流,一个人闷头写代码,收获远不及大家讨论,这也是我写博客的重要原因)。

我将爬取到的数据,保存到mysql中,下面是四张表的截图,关于表的设计,我并没有对其进行规范化设计,只是将其作为数据保存。

一、说说表(shuoshuo)

二、评论表(comment)

三、好友表(friend)

四、赞表(zan)

最后,是数据的分析,由于没学过说明聚类,分类等数据挖掘的算法等,所以我这里只是简单的对数据进行求和,排序等。最近在开始看数据挖掘算法之类的书,争取以后结合一些算法,对数据进行更深层次的挖掘。

成果展示的图表我这里用了一个叫jfreechart的图表生成插件,网上一搜,到处都是教程,这里也不做详细介绍了。直接上图吧。

That's All. 以上就是这个小demo的所有内容了,欢迎大家和我一起交流探讨。

【开源】爬取QQ空间说说及简易数据分析相关推荐

  1. python + selenium +chrome爬取qq空间好友说说并存入mongodb数据库

    python + selenium +chrome爬取qq空间好友说说并存入mongodb数据库 准备阶段 在正式开始在前需要先准备好做爬虫的工具,本例使用chrome无头浏览器进行爬取工作,也可使用 ...

  2. php取qq空间说说id,Python爬取qq空间说说的实例代码

    具体代码如下所示: #coding:utf-8 #!/usr/bin/python3 from selenium import webdriver import time import re impo ...

  3. python爬取好友qq空间_python + selenium +chrome爬取qq空间好友说说并存入mongodb数据库...

    title: python + selenium +chrome爬取qq空间好友说说并存入mongodb数据库 准备阶段 在正式开始在前需要先准备好做爬虫的工具,本例使用chrome无头浏览器进行爬取 ...

  4. python爬取加密qq空间_使用python+selenium爬取qq空间好友动态

    使用python+selenium爬取qq空间好友动态 分析过程如下: 要想用selenium登陆qq空间,必须点击账号密码登陆按钮然后再填写账号密码登陆. 1.PNG 点击账号密码按钮后跳转到如下页 ...

  5. QQ爬虫-爬取QQ空间

    背景: 在一篇个人博客看到了相关的爬虫的知识,个人比较有兴趣,就花了点时间研究了一下,主要通过好友空间的互动(相互访问量,点赞,评论,以及其他互动),以及好友之间聊天的活跃度,日常点赞量,好友之间的关 ...

  6. python爬取QQ空间好友说说并生成词云

    最近自己玩爬虫玩得很嗨.想到爬QQ空间主要是因为在看网课的时候有不少人刷弹幕要去爬前女友空间..咳咳,虽然我没有前女友,但是这不失为一个有趣的练手机会.(爬完之后发现不会留下访客记录!确实很适合爬前女 ...

  7. 如何用python爬虫爬取qq空间说说

    之前学了下爬虫一直就想爬一下QQ空间 在爬取之前需要做的准备工作 安装python3 需要的库: re 正则 selenium 需要安装 chrome 或者 Firefox 还有他们的模拟 Chrom ...

  8. python爬取qq空间锁密图片_Python3爬取QQ空间信息(下)

    |下载W3Cschool手机App,0基础随时随地学编程>>戳此了解| 导语 内容回顾: Python爬取QQ空间信息(上) 按照(上)中的安排,本期内容为抓取QQ空间的好友信息并做可视化 ...

  9. 用python爬取qq空间内容_利用Fiddler抓包和py的requests库爬取QQ空间说说内容并写入文件...

    [Python] 纯文本查看 复制代码#!C:\Program Files\Python36 python # -*- coding: UTF-8 -*- """ @au ...

  10. Python网络爬虫5 - 爬取QQ空间相册

    自毕业后,就再也没有用过QQ,QQ空间里记录的是些并不精彩的青葱岁月,但好歹也是份回忆,近日想着学以致用,用Python把QQ空间相册的所有照片爬取下来,以作备份. 分析QQ空间 登录QQ空间 爬取第 ...

最新文章

  1. c++ opencv 通过网络连接工业相机_OpenCV项目实战之零件缺陷检测(上)
  2. spring 循环依赖注入
  3. Integration testing
  4. 评论语义分析 分词 分类python_用python调用ICTCLAS50进行中文分词
  5. 阿里最快数周内提交赴港上市申请?回应:不予置评
  6. 测试环境搭建:CentOS7环境装JDK+Nginx+Redis+MySql
  7. 如何在 Zabbix 执行远程主机的脚本或指令?如何用 Zabbix 监控网站的访问量?
  8. docx4j linux上文件内容乱码问题
  9. 高端计算机教室,惟义楼高端智慧教室!360°高清全景抢先看
  10. for循环判定质数合数
  11. 使用工具Android Studio实现一个简单的Android版的新闻APP
  12. 【沙滩爱心桌面主题】_9.4
  13. 14《游戏化思维》-豆瓣评分7.0
  14. 计算数据的经验分布函数与MATLAB作图
  15. Quick BI功能篇之(一):20分钟入门 1
  16. fedora26下解决wps字体缺失(添加windows字体)
  17. Array方法、String方法
  18. three.js之高级几何体-使用二元操作组合网格(vue中使用three.js38)
  19. Python练习题——第九题:编写一个函数,输入n为偶数时,调用函数求1/2+1/4+...+1/n,当输入n为奇数时,调用函数1/1+1/3+...+1/n
  20. 游戏开发校招面试全记录(大四篇)

热门文章

  1. 二调ARCGIS符号库
  2. 这个图像工具箱,让我找得好苦
  3. 解构OPPO IoT:“开放生态”+“用户思维”,“智美生活”雏形已显
  4. matlab混沌指数的计算,Matlab编程之混沌系统李雅普诺夫指数分析
  5. 网络安全/渗透测试工具AWVS14.9下载/使用教程/安装教程
  6. 配置管理系统和整体变更系统的区别与联系
  7. 流媒体服务器之 ZLMediaKit介绍
  8. flashfxp怎么下载文件到本地
  9. 全新帝国CMS7.5大气科技感网站建设+网络公司网站源码
  10. matlab平差实习报告,《测量平差》课程设计实习报告 五星文库