(本人原创,谢绝转载)

最近,豇豆哥写了关于一系列的爬虫,其中三大指数就是最近着手写,今天先给大家分享第一指数:微博指数

分析:

首先打开微博指数的首页微指数首页,我们采用关键词iPhone作为搜索条件,同时开启fiddler抓包工具。这里说明一下:

在fiddler设置一下过滤条件,就能过滤掉无用杂乱的其他数据,剩下的数据就是你所需要的。

我们访问iPhone的微指数抓图下来可以看到这些数据:

然后返回fiddler,豇豆哥一般不喜欢用chrome或者firefox的抓包工具,太复杂,太繁琐(fiddler可谓爬虫抓包神器,不会的同学一定要学!!!)

通过查看,找到了我们想要的源码数据,这下就好。带入参数,请求这个网页,他的返回值就是我们需要的,以上是分析过程。

编写程序:

分析完成之后,我们就着手写程序,豇豆哥写爬虫有个习惯是:

1、请求网站,我一般都会请求该网页的原网站。

2、最喜欢的库就是requests库,特别是涉及到模拟登陆的时候,这个库能大大提升你的编程效率。

3、喜欢用自己的小工具,在headers这块自己开发了一个小程序,非常快速的获取headers。

ok习惯讲完了。我们开始写程序了:

上面分析,豇豆哥找到了所需要访问的网站,那么这个网站需要传入那些参数了?可以查看fiddler的webforms,如下图:

网站是采用get方式传入的数据,需要的参数有wid,sdate,edate,__rdn,第一个参数我们不知道是什么含义,但是后面参数可以猜到起始时间,rnd是时间戳(http网络知识),都不影响网页的访问,我们就注重去获取wid的值。

获取wid值:

wid变量我们是不知道,根据经验来说,这块应该是在前面的网页中产生(动态js产生或者请求网页产生)。豇豆哥通过查找:1030000000269这个值,发现了wid的来源,如图:

可以看到,我们是通过搜索关键词:iphone,请求图中的网页后,他的返回值中刚好有:1030000000269 这个数值,找到这个数值之后,对于下一步的网页请求就简单了。

所以总结一下:

1、首先是分析网页结构,找到目标数据,分析数据来源。

2、找到参数关键字逐步网上层寻找关键字,并取得关键字的值

3、做好分析之后再开始编写程序。

目前进展:微博指数现在是放在我们的服务器上供我们使用。其中还需要编写api(会用到flask,redis等库,不展开讲)

python微博爬虫实战_爬虫实战——四大指数之微博指数(一)相关推荐

  1. python3 爬虫实例_【实战练习】Python3网络爬虫快速入门实战解析(上)

    原标题:[实战练习]Python3网络爬虫快速入门实战解析(上) 摘要 使用python3学习网络爬虫,快速入门静态网站爬取和动态网站爬取 [ 前言 ] 强烈建议:请在电脑的陪同下,阅读本文.本文以实 ...

  2. Python和Java结合的项目实战_[项目实战] Python高级教程项目实战篇 Python和Java结合的项目实战 视频教程 [...

    资源介绍 课程简介:xa0xa0 Python高级教程项目实战篇 Python和Java结合的项目实战 视频教程 教学视频 ----------------------课程目录 Python项目实战篇 ...

  3. python scrapy教程实例_爬虫框架Scrapy的第一个爬虫示例入门教程

    原标题:爬虫框架Scrapy的第一个爬虫示例入门教程 我们使用dmoz.org这个网站来作为小抓抓一展身手的对象. 首先先要回答一个问题. 问:把网站装进爬虫里,总共分几步? 答案很简单,四步: 新建 ...

  4. python爬虫百度百科-python爬虫(一)_爬虫原理和数据抓取

    本篇将开始介绍Python原理,更多内容请参考:Python学习指南 为什么要做爬虫 著名的革命家.思想家.政治家.战略家.社会改革的主要领导人物马云曾经在2015年提到由IT转到DT,何谓DT,DT ...

  5. python游走代码_爬虫-案例

    前提:爬虫的实际例子 搜索引擎(百度.谷歌.360搜索等). 伯乐在线. 惠惠购物助手. 数据分析与研究(数据冰山知乎专栏). 抢票软件等. 为什么用Python写爬虫程序: PHP:PHP是世界是最 ...

  6. python微博爬虫实战_爬虫实战(一):爬取微博用户信息

    前言 最近做课设,是一个有关个人隐私安全的课题,在网上找了很多论文,最后上海交通大学的一篇硕士论文<面向社会工程学的SNS分析和挖掘>[1] 给了我很多灵感,因为是对个人隐私安全进行评估, ...

  7. python 赚钱 知乎_爬虫实战:抓取知乎问题 “大学生如何赚到一万元”

    最近对赚钱的话题很感兴趣,在知乎上关注了很多"赚钱"相关的问题,高质量的有不少,但是夹杂着私货的也不少.不过知乎的数据比较全,我们完全可以用来做文本分析. 爬虫的原理我就不细讲了, ...

  8. 爬虫python代码网易云_爬虫实战(二) 用Python爬取网易云歌单

    最近,博主喜欢上了听歌,但是又苦于找不到好音乐,于是就打算到网易云的歌单中逛逛 本着 "用技术改变生活" 的想法,于是便想着写一个爬虫爬取网易云的歌单,并按播放量自动进行排序 这篇 ...

  9. python京东自动签到_爬虫实战【10】利用Selenium自动登陆京东签到领金币

    今天我们来讲一下如何通过python来实现自动登陆京东,以及签到领取金币. 如何自动登陆京东? 我们先来看一下京东的登陆页面,如下图所示: [插入图片,登陆页面] 登陆框就是右面这一个框框了,但是目前 ...

  10. python 线程超时设置_爬虫基础知识(一)多线程与threading模块

    点击上方"蓝字"关注我们,第一时间推送优质文章! 前言 "本期带来的文章是python中多线程与threading模块的主要内容.主要分为「并发与并行」,「进程与线程」, ...

最新文章

  1. 查找字符串末尾含关键字_Excel教程:用find函数带关键字提取杂乱文本
  2. python哨兵循环_Python通用循环的构造方法实例分析
  3. 天题系列: Candy
  4. ajax的交互流程有哪几步
  5. Android Studio 查看页面布局层次结构
  6. Git从零教你入门(4):Git服务之 gogs部署安装
  7. 绿地深蓝机器人_人工智能企业深兰科技获绿地控股3亿元战略投资
  8. centos 6.5 yum
  9. python技术路线_django开发网站的技术路线?
  10. 阿里云分布式调度系统-伏羲
  11. 实验三.局域网的组建
  12. 小型计算器的实现——Java GUI图形界面设计案例
  13. 经纬度坐标转换成px_经纬度坐标转换为百度坐标
  14. GhostXP_SP3电脑装机终极版V9.7 (NTFS版)
  15. android10获取WiFi名称 已经连接的WiFi名称 SSID
  16. 基于机智云的智能家用窗户窗帘控制及物联网系统
  17. 特征根是复数的二阶微分方程
  18. LibreOffice Calc - 表格内部换行快捷键
  19. matlab 进行非线性回归,5.利用Matlab编程进行非线性回归分析.doc
  20. U盘安装Linux系统教程

热门文章

  1. SWOT分析模板框架
  2. 十六进制转二进制(转)
  3. Apache配置虚拟主机
  4. 3D线激光成像数学模型简析
  5. Linux中编译mdio命令,linux网络设备—mdio总线
  6. oracle-j2sdk1.8,cloudera-manager – 没有包oracle-j2sdk1.7可用?
  7. 【编解码】从零开始写H264解码器(1) 总纲
  8. ​有哪些比较好的录制游戏视频软件​,游戏录屏软件哪个好用
  9. Msm8960(APQ8064)平台的MSM-AOSP-kitkat编译适配(1):基础知识
  10. 高德Mapabc地图标注 基础篇