简介

前几天,一直在学习爬虫,然后最近想到了一个不错的idea,想以这个小demo来结束爬虫的学习。

是这样的:登入qq空间,爬取自己或者好友的所有说说记录,然后区统计分析一共发了多少说说,每条说说的评论有多少,谁评论的最多,有多少赞,谁赞最多,还有可以找出你的qq好友中男女比例多少,来自哪里,什么星座等等。

思路

这里讲下具体思路,具体代码我托管到github,有兴趣的朋友可以去fork,https://github.com/jerry-sc/QQZone.git

这次爬虫并没有使用之前博客提到的scrapy,而是转向了JAVA,用的框架叫做webmagic。可能大家对这个框架比较陌生,毕竟这个出现也没多久,而且是一个大牛业余开发的,用的人也不是特别多,我也是偶然百度的时候搜到的。它的主页是http://webmagic.io 大家有兴趣可以看下,我个人觉得写得还是非常棒的,它也是模仿scrapy这一成熟框架起来的,如果你对java比较了解,遇到问题看看源码,会让你对爬虫的体系有更近一步的了解,如果你对scrapy比较了解,那么我想你只要掌握写基本的java语法知识,那么必会轻松掌握此框架。

QQ空间就像新浪微博一样,如果要实现模拟登入,你一定要花很多功夫去了解里面的加密技术等,这种高端技术吾等小白还有很长一段路要走,所以我这里用最笨的办法,就是登入后获取cookie然后手动填入请求头中。

简单的分析下网页源代码可以发现,qq的说说信息,都是js带过来的,所以这里要面对的是如何从js文件中抽取信息,好在webmagic的作者在其框架介绍里面写了一篇如何爬取动态网页的博客,收获实在是太多了,http://webmagic.io/docs/zh/posts/chx-cases/js-render-page.html 这是地址,即使你不用此框架也没事,相信看了后,定会对动态网页的爬取获得经验。关于爬取URL的说明,我这里也不多说了,大家可以结合我的代码看看(我承认代码有点乱,不过我非常欢迎大家和我交流,一个人闷头写代码,收获远不及大家讨论,这也是我写博客的重要原因)。

我将爬取到的数据,保存到mysql中,下面是四张表的截图,关于表的设计,我并没有对其进行规范化设计,只是将其作为数据保存。

实现

一、说说表(shuoshuo)

二、评论表(comment)

三、好友表(friend)

四、赞表(zan)

最后,是数据的分析,由于没学过什么聚类,分类等数据挖掘的算法等,所以我这里只是简单的对数据进行求和,排序等。最近在开始看数据挖掘算法之类的书,争取以后结合一些算法,对数据进行更深层次的挖掘。

成果展示的图表我这里用了一个叫jfreechart的图表生成插件,网上一搜,到处都是教程,这里也不做详细介绍了。直接上图吧。

That's All. 以上就是这个小demo的所有内容了,欢迎大家和我一起交流探讨。

爬取QQ空间说说及简易数据分析相关推荐

  1. python + selenium +chrome爬取qq空间好友说说并存入mongodb数据库

    python + selenium +chrome爬取qq空间好友说说并存入mongodb数据库 准备阶段 在正式开始在前需要先准备好做爬虫的工具,本例使用chrome无头浏览器进行爬取工作,也可使用 ...

  2. php取qq空间说说id,Python爬取qq空间说说的实例代码

    具体代码如下所示: #coding:utf-8 #!/usr/bin/python3 from selenium import webdriver import time import re impo ...

  3. python爬取好友qq空间_python + selenium +chrome爬取qq空间好友说说并存入mongodb数据库...

    title: python + selenium +chrome爬取qq空间好友说说并存入mongodb数据库 准备阶段 在正式开始在前需要先准备好做爬虫的工具,本例使用chrome无头浏览器进行爬取 ...

  4. python爬取加密qq空间_使用python+selenium爬取qq空间好友动态

    使用python+selenium爬取qq空间好友动态 分析过程如下: 要想用selenium登陆qq空间,必须点击账号密码登陆按钮然后再填写账号密码登陆. 1.PNG 点击账号密码按钮后跳转到如下页 ...

  5. QQ爬虫-爬取QQ空间

    背景: 在一篇个人博客看到了相关的爬虫的知识,个人比较有兴趣,就花了点时间研究了一下,主要通过好友空间的互动(相互访问量,点赞,评论,以及其他互动),以及好友之间聊天的活跃度,日常点赞量,好友之间的关 ...

  6. python爬取QQ空间好友说说并生成词云

    最近自己玩爬虫玩得很嗨.想到爬QQ空间主要是因为在看网课的时候有不少人刷弹幕要去爬前女友空间..咳咳,虽然我没有前女友,但是这不失为一个有趣的练手机会.(爬完之后发现不会留下访客记录!确实很适合爬前女 ...

  7. 如何用python爬虫爬取qq空间说说

    之前学了下爬虫一直就想爬一下QQ空间 在爬取之前需要做的准备工作 安装python3 需要的库: re 正则 selenium 需要安装 chrome 或者 Firefox 还有他们的模拟 Chrom ...

  8. python爬取qq空间锁密图片_Python3爬取QQ空间信息(下)

    |下载W3Cschool手机App,0基础随时随地学编程>>戳此了解| 导语 内容回顾: Python爬取QQ空间信息(上) 按照(上)中的安排,本期内容为抓取QQ空间的好友信息并做可视化 ...

  9. 用python爬取qq空间内容_利用Fiddler抓包和py的requests库爬取QQ空间说说内容并写入文件...

    [Python] 纯文本查看 复制代码#!C:\Program Files\Python36 python # -*- coding: UTF-8 -*- """ @au ...

  10. 通过Python爬取QQ空间说说并通过Pyechart进行可视化分析

    有一天我突然发现自己空间的说说竟然已经达到1833条,于是萌生了爬一下看看的想法(其实就是想学下python爬虫).我找了一些博客,方法不少,但是有些并不适用.所以我把真正能用的方法记录下来,并且爬取 ...

最新文章

  1. 机器学习必知必会10大算法
  2. 关于PHP Session 的配置与启动问题解决
  3. 线性表的链式存储结构(C语言版)
  4. 苹果cms8x缩图带3D翻转自适应模版
  5. 曲线运动与万有引力公式_高中物理曲线运动万有引力知识点
  6. web安全day39:渗透测试方法论
  7. [HDU1754]I Hate It线段树裸题
  8. html5 css练习 定位布局
  9. Birth-Death process 生灭过程
  10. 计算机一级考试有填空题嘛,计算机一级考试填空题
  11. Technorati Blog Finder BETA
  12. 硬盘数据丢失怎么恢复?分享固态硬盘恢复数据的4个方法
  13. 法雷序列的c语言程序,程序设计实践(一).PDF
  14. 高德地图记录跑步轨迹_高德地图周边跑步路线功能体验地图秒变运动利器
  15. int argc,char*argv[ ]的简洁解释
  16. python中seaborn库_[Python学习笔记(四)] Seaborn库基础学习——01
  17. 城市公共交通周 9月18日郑州5条公交免费坐
  18. CentOS7中命令 ip addr 不显示IP地址的解决办法之一
  19. D. Death by Thousand Cuts(立体几何)
  20. 审计署计算机中级培训课件,审计署计算机中级培训--u8操作精炼

热门文章

  1. SqlServer——Excel连接数据库相关知识
  2. 智能优化算法:人工水母搜索算法 -附代码
  3. BScroll 使用(Vue)
  4. 大学课程表模板html,课程表模板空白表格(小/中/大学课程表模板excel) 中文免费版...
  5. PS制作视频字幕教程
  6. 利用masm32输出PE文件头的基本属性
  7. Jmeter-Beanshell
  8. IE8中解决Cell华表插件不显示方法!
  9. PHP沉思录之三:Smarty
  10. 国科大.模式识别与机器学习.期末复习笔记手稿+复习大纲