Fiddler是一个常见的抓包分析软件,同时我们可以利用它详细地对HTTP请求进行分析,并模拟对应的HTTP请求。

为什么使用Fiddler软件?

网络爬虫是自动爬取网页的程序,在爬取的过程中必然涉及客户端和服务器端之间的通信,自然也需要发送一些HTTP请求,并接收服务器返回的结果。在一些稍复杂的网络请求中,我们直接看网址变化是看不出规律的,此时如果要进行自动化爬取网页,就必须要通过程序构造这些请求,而通过程序构造这些请求,就必须首先分析这些请求的规律。所以此时我们要使用工具截获这些请求,对其分析,这个过程如果使用抓包软件配合进行,则会变得更加轻松。

Fiddler的基本原理

在下图可以看出,如果没有Fiddler,本地应用如果要与服务器进行通信,可以直接向服务器发送Request请求,待服务器处理之后将处理结果返回本地,本地应用接收响应response。

如果有Fiddler,本地应用与服务器之间所有的Request和Response都将经过Fiddler,由Fiddler进行转发,可以看出,此时Fiddler以代理服务器的方式存在。由于所有的网络数据都会经过Fiddler,自然Fiddler能够截获这些数据,实现网路数据的抓包。

Fiddler的基本界面

在下图中,(1)处指位置为Fiddler的菜单栏,(2)处所指位置为Fiddler的工具栏,(3)处所指为Fiddler的会话列表,我们本地应用与互联网通信的会话信息在此显示,(4)处所指位置是Fiddler的QuickExec命令输入窗口,在此我们可以输入一些Fiddler指令来快速实现某项功能。

Fiddler捕获会话功能

安装完Fiddler后,我们就学习如何使用它捕获浏览器与服务器之间的会话信息。在此以Firefox火狐浏览器为例,让火狐浏览器使用Fiddler作为其代理服务器。设置火狐浏览器的方法如下:

首先点击火狐浏览器的设置,在点击高级,在“高级”中将标签切换成“网络”。

随后在“网络”下方看到“连接”字样“,我们单击”连接“右方的设置,单击后选择”手动配置代理“,并将”HTTP代理“设置为”127.0.0.1“,端口设置为”8888“,因为Fiddler监控的地址是127.0.0.1:8888。设置好之后,点击“确定”。

现在的网站有的使用HTTTP协议,有的使用的是HTTPS协议,如果想让Fiddler能够捕获他们,还需要设置下Fiddler。打开Fiddler,然后单击“Tools”,选择“Fiddler Options”,随后在弹出的界面中选择“HTTPS”标签,将下方选项全部勾选上,配置好之后,现在的Fiddler就能捕获火狐浏览器与服务器之间的HTTTP和HTTPS会话信息了。

任意打开一个网址可以看到一下界面,此时的标签是“Statistics”,显示的是一些页面统计信息。

将标签切换为“Inspectors”,显示的是一些嗅探信息,并且该标签下有很多子标签,比如“Headers”,子标签表示的网页是一些头信息。

使用QuickExec命令行

在Fiddler中我们可以使用命令快速完成一些功能。在Fiddler界面中,会话列表下方有一个输入小框,在此介绍一些常见的Fiddler命令。

1. cls

cls是清屏命令,输入该命令可以清空会话列表的所有会话。有时侯,由于传递的数据增多,在Fiddler会话列表中会出现大量的会话信息,此时界面相对来说较为杂乱,所以可以输入该指令清空会话信息列表。

2. select

通过select命令我们可以选择出某一类型HTTP会话功能,比如想选择出所有的html网页类型的HTTP会话,可以输入命令:select html ,输入命令后回车可以发现。会话列表中所有html类型的会话都已被选中。

如果想选出所有图片类型的会话信息,可以输入命令: select image

3. ?

?命令可以查找出网址中包含某些字符的会话信息,比如“?pic”可以查找出网址中包含“pic”字符串的会话信息。

4.  help命令

help命令可以打开Fiddler官方的使用手册。

转载于:https://www.cnblogs.com/longwhite/p/10397758.html

爬虫笔记(十)——学会使用Fiddler相关推荐

  1. python爬虫影评_Python爬虫(二十)_动态爬取影评信息

    本案例介绍从JavaScript中采集加载的数据.更多内容请参考:Python学习指南 #-*- coding:utf-8 -*- import requests import re import t ...

  2. Python语言入门这一篇就够了-学习笔记(十二万字)

    Python语言入门这一篇就够了-学习笔记(十二万字) 友情提示:先关注收藏,再查看,12万字保姆级 Python语言从入门到精通教程. 文章目录 Python语言入门这一篇就够了-学习笔记(十二万字 ...

  3. pthon爬虫笔记--名著小说网

    Python爬虫笔记一--名著小说网的爬取 @阿乐今天敲代码没 import requests #导入requests库 import sys #python自带模块,联系python解释器 from ...

  4. 爬虫笔记八----selenium

    爬虫笔记八 来自风变编程 在爬虫过程中,我们还可能会遇到各种各样棘手的问题-- 有的网站登录很复杂,验证码难以破解,比如大名鼎鼎的12306. 有的网站页面交互复杂,所使用的技术难以被爬取,比如,腾讯 ...

  5. 机器学习笔记十四:随机森林

    在上一篇机器学习笔记十三:Ensemble思想(上)中,简要的提了一下集成学习的原理和两种主要的集成学习形式.  而在这部分要讲的随机森林,就算是其中属于bagging思路的一种学习方法.为了篇幅,b ...

  6. Python 网络爬虫笔记11 -- Scrapy 实战

    Python 网络爬虫笔记11 – Scrapy 实战 Python 网络爬虫系列笔记是笔者在学习嵩天老师的<Python网络爬虫与信息提取>课程及笔者实践网络爬虫的笔记. 课程链接:Py ...

  7. Python 网络爬虫笔记10 -- Scrapy 使用入门

    Python 网络爬虫笔记10 – Scrapy 使用入门 Python 网络爬虫系列笔记是笔者在学习嵩天老师的<Python网络爬虫与信息提取>课程及笔者实践网络爬虫的笔记. 课程链接: ...

  8. Python 网络爬虫笔记9 -- Scrapy爬虫框架

    Python 网络爬虫笔记9 – Scrapy爬虫框架 Python 网络爬虫系列笔记是笔者在学习嵩天老师的<Python网络爬虫与信息提取>课程及笔者实践网络爬虫的笔记. 课程链接:Py ...

  9. Python 网络爬虫笔记8 -- 股票数据定向爬虫

    Python 网络爬虫笔记8 – 股票数据定向爬虫 Python 网络爬虫系列笔记是笔者在学习嵩天老师的<Python网络爬虫与信息提取>课程及笔者实践网络爬虫的笔记. 课程链接:Pyth ...

  10. Python 网络爬虫笔记6 -- 正则表达式

    Python 网络爬虫笔记6 – 正则表达式 Python 网络爬虫系列笔记是笔者在学习嵩天老师的<Python网络爬虫与信息提取>课程及笔者实践网络爬虫的笔记. 课程链接:Python网 ...

最新文章

  1. JSON API免费接口
  2. W32.Downedup.B顽固病毒——查杀记
  3. 苹果mp3软件_神技能!!!音视频制作软件
  4. 由Effiproz DataBase来看.NET开源数据库发展
  5. 中英文论文高效排版插件一一 Tip ( Text Image P rocessing )
  6. J2EE中在web.xml异常页面跳转
  7. pytorch实现dcgan_PyTorch版本DCGAN实现的注解
  8. Spark源码分析之DAGScheduler以及stage的划分
  9. 恒丰银行微服务架构优化实践
  10. 打开并读取npy文件,查看文件内容
  11. mybatis:mybatis源码下载
  12. android 定时器 误差,运动会计时器(PC+安卓)版本
  13. PHP与其他语言的比较
  14. C语言基础-计算一个整数各个位数之和
  15. VIO中的角速度和四元数
  16. 单片机学习笔记9--常见的通信方式(基于百问网STM32F103系列教程)
  17. js,前端下载PDF方法总结
  18. 关于Echarts折线图双Y轴网格的一些配置
  19. 制作一个网站前你应该了解哪些东西?怎么搭建网站?
  20. 海关数据有对于外贸企业来说有什么作用?要如何使用才会有效果

热门文章

  1. android 预约挂号代码_还在医院苦苦排队挂号?Python定时自动挂号和快捷查询化验报告!...
  2. ngrok 代理访问
  3. python int函数的实现_python实现int函数的案例分析
  4. 九大内置对象及四个域对象的总结
  5. 中的live_张杰两首歌曲连唱彰显LIVE实力 青春演说温暖人心
  6. python编译软件排行榜_4 个快速的 Python 编译器 for 2018
  7. c 子类对象 访问父类对象受保护成员_面向对象三大特征: 继承
  8. python求两个数的最大值、用带参函数实现_Python有参函数使用代码实例
  9. python shell常用命令_python 之 shell命令执行
  10. 前端把cookie写在父域里_单点登录的三种实现方式