环境:PyCharm+Chorme+MongoDB Window10

爬虫爬取数据的过程,也类似于普通用户打开网页的过程。所以当我们想要打开浏览器去获取好友空间的时候必定会要求进行登录,接着再是查看说说。那么我们先把登录步骤给解决了。

1.模拟登录QQ空间

因为想更直观的看到整个登录过程所以就没有用selenium+phantomjs,而是结合Chorme使用。除了slenium和Chorme之外还需要下载ChormeDriver进行使用,官网不提供win64版本的但是win32版本的也能正常在64位系统使用 我使用的是2.30版本的ChormeDriver和61的Chorme。

2.通过浏览器的开发者工具查看数据来源。

在打开说说页面之前打开开发者工具点击NetWork选择XHR你会看到如下的几个网址通过查看Response。

筛选XHR后显示的地址

获取数据所需的参数

通过多次请求发现不断改变g_tk值,但是这个值是通过加密算法得到的在网上查了下发现了这个加密算法。

3.将数据获取并储存到数据库中。

既然已经搞清楚数据是怎么来的那么就可以开始考虑将获取的数据保存到数据库里了,这次我们选择的是MongoDB,MongoDB的数据储存格式为BSON类似于JSON。在获取过程需要考虑两个问题,一是你是否有权限访问该空间,二是在能访问的情况下不能无止境的爬下去需要判断该空间说说是否爬取完毕。在爬取过程中将不能访问的QQCode存入list在最后跑完的时候输出。事已至此经过漫长的等待以及和服务器不断的交互所有的数据都存入了数据库中接下来就该对数据进行处理了!!

4.处理数据,大概爬下来11万条左右的数据

将获取的位置信息标记在地图上可以看到红点密集的地方大概也是旅游时大家比较想去的地方。

通过部分说说得到的发送设备信息

python爬取加密qq空间_用python爬取qq空间说说相关推荐

  1. python实现rsa加密解密代码_使用python实现rsa算法代码

    RSA算法是一种非对称加密算法,是现在广泛使用的公钥加密算法,主要应用是加密信息和数字签名. 维基百科给出的RSA算法简介如下: 假设Alice想要通过一个不可靠的媒体接收Bob的一条私人讯息.她可以 ...

  2. python爬取加密qq空间_使用python+selenium爬取qq空间好友动态

    使用python+selenium爬取qq空间好友动态 分析过程如下: 要想用selenium登陆qq空间,必须点击账号密码登陆按钮然后再填写账号密码登陆. 1.PNG 点击账号密码按钮后跳转到如下页 ...

  3. python爬取qq数据_用Python爬取QQ好友空间说说进行分析

    前言: 本文涉及知识点有数据库的读写,python基础,浏览器开发者工具的使用,适用于有编程基础,了解过python的朋友阅读. 环境:PyCharm+Chrome+MongoDB Window10 ...

  4. Python爬取网站用户手机号_用Python爬虫爬取学校网妹子QQ号,100行代码撩妹,用技术脱单...

    前言: 其实这个项目没什么难度,稍微懂一点爬虫的人或者是已经就业的程序员都可以用自己学的编程语言写出来,但是正是这也原因,也间接证明现在网络很多安全问题的存在,简单的说就是这个网站的程序员偷懒,让用户 ...

  5. python爬取数据案例分析_基于Python及webdriver的网页抓取案例

    上次有朋友问怎么抓取交易所网站的数据,特别是历史数据,这里特别推荐使用selenium这一自动化测试框架. 原本selenium是用来完成大量基于浏览器的自动化测试的,但由于可以方便地执行JS代码,摸 ...

  6. python如何爬取网站所有目录_用python爬虫爬取网站的章节目录及其网址

    认识爬虫 网络爬虫(又被称为网页蜘蛛,网络机器人,在FOAF社区中间,更经常的称为网页追逐者),是一种按照一定的规则,自动地抓取万维网信息的程序或者脚本.另外一些不常使用的名字还有蚂蚁.自动索引.模拟 ...

  7. python爬取国家男女比例_用python爬取3万多条评论,看韩国人如何评价韩国电影《寄生虫》?...

    用python爬取3万多条评论,看韩国人如何评价韩国电影<寄生虫>? 朱小五 凹凸数据 大家好,我是朱小五 今天给大家带来一个关于电影的数据分析文章. 别走啊,这次不是豆瓣,也不是猫眼 真 ...

  8. python 循环定时器 timer显示数据_【Python】多线程、定时循环爬取优信二手车信息...

    爬虫 爬取优信二手车:循环遍历每页,获取相应的有价值字段信息,这里不详细阐释了. 多线程 Python中,使用concurrent.futures模块下的ThreadPoolExecutor类来实现线 ...

  9. python爬取微博用户正文_基于Python的新浪微博用户信息爬取与分析

    基于 Python 的新浪微博用户信息爬取与分析 邓文萍 [摘 要] 摘要:本文设计并实现了一个微博用户信息爬取与分析系统 , 利用 Cookie 实现了用户的模拟登录 , 使用 Python 语言的 ...

  10. python 爬取链家数据_用python爬取链家网的二手房信息

    题外话:这几天用python做题,算是有头有尾地完成了.这两天会抽空把我的思路和方法,还有代码贴出来,供python的初学者参考.我python的实战经历不多,所以代码也是简单易懂的那种.当然过程中还 ...

最新文章

  1. 人月神话——焦油坑 《读后感》
  2. Android处理崩溃的一些实践
  3. git 添加用户名和邮箱_设置 Git 账户及邮箱
  4. DEPENDS工具和DUMPBIN工具使用
  5. 学习笔记----linux下编译samba
  6. 现身说法,给职场新人的投资理财建议
  7. 支付宝App采用华为方舟编译器几乎秒开?支付宝回应:华为好棒,加油
  8. javascript绘制静态或者动态的图表、关系表、流程图-JointJS
  9. ViBe算法source code
  10. 深入理解JVM虚拟机笔记——类加载机制
  11. 使用官方APi获取Youtube视频资源
  12. 【开源教程2】疯壳·开源编队无人机-硬件资源简介
  13. 【智能制造】工业软件:智能制造的大脑
  14. 货币政策新款“奥利给”:普惠小微企业信贷支持计划的制约与动力
  15. ISO SAE 21434-2021 要求、建议、允许(RQ、RC、PM)整理
  16. c语言程序设计课程总结600字,2019年春季学期《C语言程序设计II》课程总结
  17. 电商html轮播动效,制作一个电商网站的轮播图效果
  18. SpringBoot+Vue项目快速入门
  19. 蜗牛星际之安装PVE+LEDE+群辉
  20. GoAccess日志分析工具,适用于Nginx/Apache/IIS 等

热门文章

  1. android 倒计时 动画下载,我的倒计时软件下载-我的倒计时 安卓版v1.1.50-PC6安卓网...
  2. 中国电信物联网正式平台设置订阅地址
  3. 基于战舰V3的NRF24L01模块的原理剖析及应用
  4. 中文字体的FontMetrics解析
  5. navicat 10.1.7 注册码
  6. JavaScript 中级篇:模块化编程
  7. CS 61A Spring 2019 HW01 学习笔记
  8. 华为eNSP静态路由原理与配置实例详解
  9. Deeping Learning学习与感悟——《深度学习工程师》_2
  10. 7-15 计算圆周率 (C语言)