环境:PyCharm+Chorme+MongoDB Window10

爬虫爬取数据的过程,也类似于普通用户打开网页的过程。所以当我们想要打开浏览器去获取好友空间的时候必定会要求进行登录,接着再是查看说说。那么我们先把登录步骤给解决了。

1.模拟登录QQ空间

因为想更直观的看到整个登录过程所以就没有用selenium+phantomjs,而是结合Chorme使用。除了slenium和Chorme之外还需要下载ChormeDriver进行使用,官网不提供win64版本的但是win32版本的也能正常在64位系统使用 我使用的是2.30版本的ChormeDriver和61的Chorme。

2.通过浏览器的开发者工具查看数据来源。

在打开说说页面之前打开开发者工具点击NetWork选择XHR你会看到如下的几个网址通过查看Response。

                                 筛选XHR后显示的地址

获取数据所需的参数

通过多次请求发现不断改变g_tk值,但是这个值是通过加密算法得到的在网上查了下发现了这个加密算法。

3.将数据获取并储存到数据库中。

既然已经搞清楚数据是怎么来的那么就可以开始考虑将获取的数据保存到数据库里了,这次我们选择的是MongoDB,MongoDB的数据储存格式为BSON类似于JSON。在获取过程需要考虑两个问题,一是你是否有权限访问该空间,二是在能访问的情况下不能无止境的爬下去需要判断该空间说说是否爬取完毕。在爬取过程中将不能访问的QQCode存入list在最后跑完的时候输出。事已至此经过漫长的等待以及和服务器不断的交互所有的数据都存入了数据库中接下来就该对数据进行处理了!!

4.处理数据,大概爬下来11万条左右的数据

将获取的位置信息标记在地图上可以看到红点密集的地方大概也是旅游时大家比较想去的地方。

通过部分说说得到的发送设备信息

python爬虫爬取qq空间说说_用python爬取qq空间说说相关推荐

  1. python爬虫网页图片显示不出来_用Python爬取20万条网页美女图片,两只眼睛 都看不过来了!...

    前言 最近几天,研究了一下一直很好奇的爬虫算法.这里写一下最近几天的点点心得.下面进入正文: 你可能需要的工作环境: Python 3.6官网下载 本地下载 我们这里以sogou作为爬取的对象. 首先 ...

  2. python爬虫餐饮行业数据分析统计服_用Python分析统计必胜客餐厅

    在之前的 一篇文章100行代码爬取全国所有必胜客餐厅 信息,我讲到如何爬取必胜客官网中全国各大城市餐厅的信息.虽然餐厅数据信息被抓取下来,但是数据一直在硬盘中"躺尸".不曾记得,自 ...

  3. python多线程爬取多个网址_【Python爬虫】多线程爬取斗图网站(皮皮虾,我们上车)...

    原标题:[Python爬虫]多线程爬取斗图网站(皮皮虾,我们上车) 斗图我不怕 没有斗图库的程序猿是无助,每次在群里斗图都以惨败而告终,为了能让自己在斗图界立于不败之地,特意去网上爬取了斗图包.在这里 ...

  4. Python爬虫新手入门教学(十八):爬取yy全站小视频

    前言 本文的文字及图片来源于网络,仅供学习.交流使用,不具有任何商业用途,如有问题请及时联系我们以作处理. Python爬虫.数据分析.网站开发等案例教程视频免费在线观看 https://space. ...

  5. Python爬虫新手入门教学(二十):爬取A站m3u8视频格式视频

    前言 本文的文字及图片来源于网络,仅供学习.交流使用,不具有任何商业用途,如有问题请及时联系我们以作处理. 前文内容 Python爬虫新手入门教学(一):爬取豆瓣电影排行信息 Python爬虫新手入门 ...

  6. python爬虫实践——零基础快速入门(四)爬取小猪租房信息

    上篇文章我们讲到python爬虫实践--零基础快速入门(三)爬取豆瓣电影 接下来我们爬取小猪短租租房信息.进入主页后选择深圳地区的位置.地址如下: http://sz.xiaozhu.com/ 一,标 ...

  7. Python爬虫 | 对广州市政府数据统一开放平台数据的爬取

    Python爬虫 | 对广州市政府数据统一开放平台数据的爬取 简单爬虫 网页分析 爬虫代码 简单爬虫 本次爬虫演示的是对 广州市政府数据统一开放平台 数据的爬取 网页分析 我们先到url=' http ...

  8. python爬虫电影资源_【Python爬虫】第十六次 xpath整站抓取阳光电影网电影资源

    [Python爬虫]第十六次 xpath整站抓取阳光电影网电影资源# 一.解析电影url # 请求15题构造出的每个电影菜单的分页url,解析出每个电影url # 二.xpath解析电影资源 # 对第 ...

  9. Python爬虫系列之多多买菜小程序数据爬取

    Python爬虫系列之多多买菜小程序数据爬取 小程序爬虫接单.app爬虫接单.网页爬虫接单.接口定制.网站开发.小程序开发> 点击这里联系我们 < 微信请扫描下方二维码 代码仅供学习交流, ...

  10. Python爬虫新手入门教学(十六):爬取好看视频小视频

    前言 本文的文字及图片来源于网络,仅供学习.交流使用,不具有任何商业用途,如有问题请及时联系我们以作处理. Python爬虫.数据分析.网站开发等案例教程视频免费在线观看 https://space. ...

最新文章

  1. Linux centos7 NMAP网络探测工具安装过程以及使用示例!
  2. 决策树剪枝的方法与必要性
  3. 在内存只有 24KB 的电脑上写操作系统,是怎样的体验?
  4. LINUX CentOS6.8 wdcp面板安装
  5. C++知识点44——类的继承概述
  6. 【题解】Luogu P2730 魔板
  7. 【ASP.NET MVC 学习笔记】- 16 Model Binding(模型绑定)
  8. javascript map 排序_数据结构-JavaScript字典结构的编程实现
  9. C# 操作线程的通用类[测试通过]
  10. 解决springBoot 的templates中html引入css文件失败
  11. 新版知识付费系统付费阅读小程序源码知识付费平台
  12. eclipse不能添加tomcat7的问题
  13. 计算机专业考研不想走编程,考研的这些弯路,不要走,好吗?
  14. 【Hive】数据导入方法
  15. U盘量产工具_修复、U盘写保护无法格式化、U盘文件乱码格式
  16. 计算机蓝屏一直重启,笔记本电脑开机蓝屏不断重启问题的解决方法
  17. android 厨房的使用方法,安卓ROM厨房定制工具使用教程
  18. 数据治理系列文章:(7)数据安全
  19. 右键文件用指定软件打开
  20. linux终端加密,在Linux系统上安装和使用VeraCrypt加密的方法

热门文章

  1. python解决工作小问题之 处理Excel的重复数据
  2. CSS漂亮的盒子 - 背景颜色透明度
  3. 【调剂】广东省杰青广州大学范立生教授课题组接收计算机学硕调剂
  4. 雪崩光电二极管推动汽车行业发展
  5. .NET Framework 3.5安装教程
  6. 如何使用TrackPopupMenu创建菜单
  7. const ... of 与 const ... in 区别
  8. Visual Studio Online终于公开上线了
  9. 获取当前进程的启动程序
  10. 在Android Studio 创建模拟器出现VT-x is dis able in BIOS的几种解决方案