在上一节课我们讲解了 Charles 的使用,它可以帮助我们抓取 HTTP 和 HTTPS 的数据包,抓到请求之后,我们如果能够分析出接口请求的一些规律,就能轻松通过 Python 脚本来进行改写。可是当请求里面包含一些无规律的参数的时候,可能就束手无策了。本节课我们介绍一个叫作 mitmproxy 的工具,它可以对抓包的结果通过脚本进行实时处理和保存,接下来我们来一起了解下吧。

1.介绍

mitmproxy 是一个支持 HTTP 和 HTTPS 的抓包程序,有类似 Fiddler、Charles 的功能,只不过它是一个控制台的形式操作。

mitmproxy 还有两个关联组件。一个是 mitmdump,它是 mitmproxy 的命令行接口,利用它我们可以对接 Python 脚本,用 Python 实现实时监听后的处理。另一个是 mitmweb,它是一个 Web 程序,通过它我们可以清楚观察 mitmproxy 捕获的请求。

下面我们来了解它们的用法。

2.准备工作

请确保已经正确安装好了 mitmproxy,并且手机和 PC 处于同一个局域网下,同时配置好了 mitmproxy 的 CA 证书,具体的配置可以参考 https://cuiqingcai.com/5391.html。

2.1mitmproxy 的功能

mitmproxy 有如下几项功能。

  • 拦截 HTTP 和 HTTPS 请求和响应;
  • 保存 HTTP 会话并进行分析;
  • 模拟客户端发起请求,模拟服务端返回响应;
  • 利用反向代理将流量转发给指定的服务器;
  • 支持 Mac 和 Linux 上的透明代理;
  • 利用 Python 对 HTTP 请求和响应进行实时处理。

3.抓包原理

和 Charles 一样,mitmproxy 运行于自己的 PC 上,mitmproxy 会在 PC 的 8080 端口运行,然后开启一个代理服务,这个服务实际上是一个 HTTP/HTTPS 的代理。

手机和 PC 在同一个局域网内,设置代理为 mitmproxy 的代理地址,这样手机在访问互联网的时候流量数据包就会流经 mitmproxy,mitmproxy 再去转发这些数据包到真实的服务器,服务器返回数据包时再由 mitmproxy 转发回手机,这样 mitmproxy 就相当于起了中间人的作用,抓取到所有 Request 和 Response.

另外这个过程还可以对接 mitmdump,抓取到的 Request 和 Response 的具体内容都可以直接用 Python 来处理,比如得到 Response 之后我们可以直接进行解析,然后存入数据库,这样就完成了数据的解析和存储过程。

4.设置代理

首先,我们需要运行 mitmproxy,mitmproxy 启动命令如下所示:

mitmproxy


右下角会出现当前正在监听的端口。

或者启动 mitmdump,它也会监听 8080 端口,命令如下所示:

mitmdump

运行结果如图所示。

将手机和 PC 连接在同一局域网下,设置代理为当前代理。首先看看 PC 的当前局域网 IP。

Windows 上的命令如下所示:

ipconfig

Linux 和 Mac 上的命令如下所示:

ifconfig

输出结果如图所示。

一般类似 10…* 或 172.16… 或 192.168.1.* 这样的 IP 就是当前 PC 的局域网 IP,例如此图中 PC 的 IP 为 192.168.1.28,手机代理设置类似如图所示。

这样我们就配置好了 mitmproxy 的代理。

5.mitmproxy 的使用

确保 mitmproxy 正常运行,并且手机和 PC 处于同一个局域网内,设置了 mitmproxy 的代理。

运行 mitmproxy,命令如下所示:

mitmproxy

设置成功之后,我们只需要在手机浏览器上访问任意的网页或浏览任意的 App 即可。例如在手机上打开百度,mitmproxy 页面便会呈现出手机上的所有请求,如图所示。

这就相当于之前我们在浏览器开发者工具监听到的浏览器请求,在这里我们借助于 mitmproxy 完成。Charles 完全也可以做到。

这里是刚才手机打开百度页面时的所有请求列表,左下角显示的 2/38 代表一共发生了 38 个请求,当前箭头所指的是第二个请求。

每个请求开头都有一个 GET 或 POST,这是各个请求的请求方式。紧接的是请求的 URL。第二行开头的数字就是请求对应的响应状态码,后面是响应内容的类型,如 text/html 代表网页文档、image/gif 代表图片。再往后是响应体的大小和响应的时间。

当前呈现了所有请求和响应的概览,我们可以通过这个页面观察到所有的请求。

如果想查看某个请求的详情,我们可以敲击回车,进入请求的详情页面,如图所示。

可以看到 Headers 的详细信息,如 Host、Cookies、User-Agent 等。

最上方是一个 Request、Response、Detail 的列表,当前处在 Request 这个选项上。这时我们再点击 Tab 键,即可查看这个请求对应的响应详情,如图所示。

最上面是响应头的信息,下拉之后我们可以看到响应体的信息。针对当前请求,响应体就是网页的源代码。

这时再敲击 Tab 键,切换到最后一个选项卡 Detail,即可看到当前请求的详细信息,如服务器的 IP 和端口、HTTP 协议版本、客户端的 IP 和端口等,如图所示。

mitmproxy 还提供了命令行式的编辑功能,我们可以在此页面中重新编辑请求。敲击 e 键即可进入编辑功能,这时它会询问你要编辑哪部分内容,如 Cookies、Query、URL 等,每个选项的第一个字母会高亮显示。敲击要编辑内容名称的首字母即可进入该内容的编辑页面,如敲击 m 即可编辑请求的方式,敲击 q 即可修改 GET 请求参数 Query。

这时我们敲击 q,进入到编辑 Query 的页面。由于没有任何参数,我们可以敲击 a 来增加一行,然后就可以输入参数对应的 Key 和 Value,如图所示。

这里我们输入 Key 为 wd,Value 为 NBA。

然后再敲击 Esc 键和 q 键,返回之前的页面,再敲击 e 和 p 键修改 Path。和上面一样,敲击 a 增加 Path 的内容,这时我们将 Path 修改为 s,如图所示。

再敲击 esc 和 q 键返回,这时我们可以看到最上面的请求链接变成了 https://www.baidu.com/s?wd=NBA,访问这个页面,可以看到百度搜索 NBA 关键词的搜索结果,如图所示。

敲击 a 保存修改,敲击 r 重新发起修改后的请求,即可看到上方请求方式前面多了一个回旋箭头,这说明重新执行了修改后的请求。这时我们再观察响应体内容,即可看到搜索 NBA 的页面结果的源代码,如图所示。

以上内容便是 mitmproxy 的简单用法。利用 mitmproxy,我们可以观察到手机上的所有请求,还可以对请求进行修改并重新发起。

Fiddler、Charles 也有这个功能,而且它们的图形界面操作更加方便。那么 mitmproxy 的优势何在?

mitmproxy 的强大之处体现在它的另一个工具 mitmdump,有了它我们可以直接对接 Python 对请求进行处理。下面我们来看看 mitmdump 的用法。

6.mitmdump 的使用

mitmdump 是 mitmproxy 的命令行接口,同时还可以对接 Python 对请求进行处理,这是相比 Fiddler、Charles 等工具更加方便的地方。有了它我们可以不用手动截获和分析 HTTP 请求和响应,只需写好请求和响应的处理逻辑即可。它还可以实现数据的解析、存储等工作,这些过程都可以通过 Python 实现。

6.1实例引入

我们可以使用命令启动 mitmproxy,并把截获的数据保存到文件中,命令如下所示:

mitmdump -w outfile

其中 outfile 的名称任意,截获的数据都会被保存到此文件中。
还可以指定一个脚本来处理截获的数据,使用 - s 参数即可:

mitmdump -s script.py

这里指定了当前处理脚本为 script.py,它需要放置在当前命令执行的目录下。
我们可以在脚本里写入如下的代码:

def request(flow):flow.request.headers['User-Agent'] = 'MitmProxy'print(flow.request.headers)

我们定义了一个 request 方法,参数为 flow,它其实是一个 HTTPFlow 对象,通过 request 属性即可获取到当前请求对象。然后打印输出了请求的请求头,将请求头的 User-Agent 修改成了 MitmProxy。
运行之后我们在手机端访问 http://httpbin.org/get,就可以看到有如下情况发生。

手机端的页面显示如图所示。

PC 端控制台输出如图所示。

手机端返回结果的 Headers 实际上就是请求的 Headers,User-Agent 被修改成了 mitmproxy。PC 端控制台输出了修改后的 Headers 内容,其 User-Agent 的内容正是 mitmproxy。

所以,通过这三行代码我们就可以完成对请求的改写。print 方法输出结果可以呈现在 PC 端控制台上,可以方便地进行调试。

6.2日志输出

mitmdump 提供了专门的日志输出功能,可以设定不同级别以不同颜色输出结果。我们把脚本修改成如下内容:

from mitmproxy import ctx
def request(flow):flow.request.headers['User-Agent'] = 'MitmProxy'ctx.log.info(str(flow.request.headers))ctx.log.warn(str(flow.request.headers))ctx.log.error(str(flow.request.headers))

这里调用了 ctx 模块,它有一个 log 功能,调用不同的输出方法就可以输出不同颜色的结果,以方便我们做调试。例如,info 方法输出的内容是白色的,warn 方法输出的内容是黄色的,error 方法输出的内容是红色的。运行结果如图所示。

不同的颜色对应不同级别的输出,我们可以将不同的结果合理划分级别输出,以更直观方便地查看调试信息。

6.3Request

最开始我们实现了 request 方法并且对 Headers 进行了修改。下面我们来看看 Request 还有哪些常用的功能。我们先用一个实例来感受一下。

from mitmproxy import ctx
def request(flow):request = flow.requestinfo = ctx.log.infoinfo(request.url)info(str(request.headers))info(str(request.cookies))info(request.host)info(request.method)info(str(request.port))info(request.scheme)

我们修改脚本,然后在手机上打开百度,即可看到 PC 端控制台输出了一系列的请求,在这里我们找到第一个请求。控制台打印输出了 Request 的一些常见属性,如 URL、Headers、Cookies、Host、Method、Scheme 等。输出结果如图所示。

结果中分别输出了请求链接、请求头、请求 Cookies、请求 Host、请求方法、请求端口、请求协议这些内容。

同时我们还可以对任意属性进行修改,就像最初修改 Headers 一样,直接赋值即可。例如,这里将请求的 URL 修改一下,脚本修改如下所示:

def request(flow):url = 'https://httpbin.org/get'flow.request.url = url


比较有意思的是,浏览器最上方还是呈现百度的 URL,但是页面已经变成了 httpbin.org 的页面了。另外,Cookies 明显还是百度的 Cookies。我们只是用简单的脚本就成功把请求修改为其他的站点。通过这种方式修改和伪造请求就变得轻而易举。

通过这个实例我们知道,有时候 URL 虽然是正确的,但是内容并非正确。我们需要进一步提高自己的安全防范意识。

Request 还有很多属性,在此不再一一列举。更多属性可以参考:http://docs.mitmproxy.org/en/latest/scripting/api.html。

只要我们了解了基本用法,会很容易地获取和修改 Reqeust 的任意内容,比如可以用修改 Cookies、添加代理等方式来规避反爬。

6.4Response

对于爬虫来说,我们更加关心的其实是响应的内容,因为 Response Body 才是爬取的结果。对于响应来说,mitmdump 也提供了对应的处理接口,就是 response 方法。下面我们用一个实例感受一下。

from mitmproxy import ctx
def response(flow):response = flow.responseinfo = ctx.log.infoinfo(str(response.status_code))info(str(response.headers))info(str(response.cookies))info(str(response.text))

将脚本修改为如上内容,然后手机访问:http://httpbin.org/get。

这里打印输出了响应的 status_code、headers、cookies、text 这几个属性,其中最主要的 text 属性就是网页的源代码。

PC 端控制台输出如图所示。

控制台输出了响应的状态码、响应头、Cookies、响应体这几部分内容。

我们可以通过 response 方法获取每个请求的响应内容。接下来再进行响应的信息提取和存储,我们就可以成功完成爬取了。

6.5示例操作

下面我们来介绍一个 App 的爬取实现,示例 App 可以参见附件。

通过 Charles 抓包之后我们可以发现,其接口的 URL 中包含了一个 token 参数,如图所示。
而且这个 token 每次请求都是变化的,我们目前也观察不出它到底是怎么构造的。

那么我们如果想把抓包的这些结果保存下来,应该怎么办呢?显然就不好直接用程序来构造这些请求了,因为 token 的生成逻辑我们无从得知。这时候我们可以采取 mitmdump 实时处理的操作,只要能抓到包,那就可以把抓包的结果实时处理并保存下来。

首先我们写一个 mitmdump 脚本,还是和原来一样,保存为 spider.py 内容如下:

from mitmproxy import ctx
def response(flow):response = flow.responseinfo = ctx.log.infoinfo(str(response.status_code))info(str(response.headers))info(str(response.cookies))info(str(response.text))

然后启动一下脚本,命令如下:

mitmdump -s spider.py

设置好手机代理为 mitmdump 的地址。
这时候打开手机 App,会看到如下的界面,如图所示。

这时候我们再返回控制台,查看下 mitmdump 的输出,就会变成如下内容,如图所示。
我们可以看到这里就输出来了抓包后的结果,最后的这个内容实际上就是接口的返回结果,我们直接将其输出到控制台上了。

经过一些分析我们可以很轻松得知一次请求就会获取 10 条电影的数据,我们可以对脚本进行下改写,对这个结果进行分析处理。比如我们可以遍历每一条电影数据,然后将其保存到本地,成为 JSON 文件。

脚本就可以改写如下:

from mitmproxy import ctx
import json
def response(flow):response = flow.responseif response.status_code != 200:returndata = json.loads(str(response.text))for item in data.get('results'):name = item.get('name')with open(f'{name}.json', 'w', encoding='utf-8') as f:f.write(json.dumps(item, indent=2, ensure_ascii=False))

这里我们首先对 response 的内容进行了解析,然后遍历了 results 字段的每个内容,然后获取其 name 字段当作文件输出的名称,最后输出保存成一个 JSON 文件。

这时候,我们再重新运行 mitmdump 和 App,就可以发现 mitmdump 的运行目录下就出现了好多 JSON 文件,这些 JSON 文件的内容就是抓包的电影数据的结果,如图所示。
我们打开其中一个结果,内容如下:

{"id": 3,"name": "肖申克的救赎","alias": "The Shawshank Redemption","cover": "https://p0.meituan.net/movie/283292171619cdfd5b240c8fd093f1eb255670.jpg@464w_644h_1e_1c","categories": ["剧情","犯罪"
],"published_at": "1994-09-10","minute": 142,"score": 9.5,"regions": ["美国"
]
}

可以看到这就是我们在 Charles 中看到的返回结果中的一条电影数据的内容,我们通过 mitmdump 对接实时处理脚本实现了分析和保存。

以上便是 mitmproxy 和 mitmdump 的基本用法。

第32讲:实时处理利器 mitmproxy 的使用相关推荐

  1. 《深入理解MySQL主从原理32讲》推荐篇

    导读: 作者:高鹏(网名八怪),<深入理解MySQL主从原理32讲>系列文的作者.2008年开始至今一直从事Oracle/MySQL相关工作,现任易极付高级DBA,Oracle Ocm. ...

  2. 陈力:传智播客古代 珍宝币 泡泡龙游戏开发第32讲:PHP 构造方法、析构方法

    陈力:传智播客古代 珍宝币 泡泡龙游戏开发第32讲:PHP 构造方法.析构方法 构造方法__construct()的主要作用是完成对新对象的初始化,没有返回值,析构方法__destruct的作用主要用 ...

  3. 程序员职场进阶 32 讲

    课程介绍 如何寻找技术方向?如何进行技术转型?如何提升技术能力?这三大问题困扰着大部分程序员. 去年 10 月,我在 GitChat 平台上发布的达人课<程序员跨越式成长指南>已经累计销售 ...

  4. MySQL讲义第 32 讲——select 查询之 select 语句的执行顺序

    MySQL讲义第 32 讲--select 查询之 select 语句的执行顺序 文章目录 MySQL讲义第 32 讲--select 查询之 select 语句的执行顺序 一.SELECT 语句的语 ...

  5. 三菱FX5U通讯、定位、伺服32讲

    三菱FX5U系列(现在已经升级改成为MELSEC iQ-F系列)PLC的CPU模块中内置了能够支持各种控制的优异功能,全系标配Ethernet端口.RS-485端口.SD存储卡槽.Ethernet端口 ...

  6. 深入浅出计算机组成原理:FPGA、ASIC和TPU(上)-计算机体系结构的黄金时代(第32讲)...

    一.引子 过去很长一段时间里,大家在讲到高科技.互联网.信息技术的时候,谈的其实都是"软件".从1995年微软发布Windows 95开始,高科技似乎就等同于软件业和互联网.著名的 ...

  7. JAVA入门到精通-第32讲-swing编程实战

    JBorderLayout,左边是JList,拆分窗格: 图片是放在JLabel上的,图片的地址写好就行: 在相关项目下面建立一个文件夹Folder,放置图片:或者复制粘贴: 拆分:水平拆分?垂直拆分 ...

  8. 淘淘商城第32讲——CMS内容管理系统的搭建

    上文我们一起搭建了表现层中的商城门户系统,即taotao-portal-web工程,本文我将教大家如何搭建CMS内容管理系统.说到这里,那什么是内容管理系统呢? 要不你给我说说内容管理系统 为什么需要 ...

  9. 软件测试项目实战32讲,软件测试入门-黑马头条项目实战

    课程简介 本课程以黑马头条实战项目为例,将项目的整个测试流程做了详细的介绍,并带着大家一起进行产品需求评审,项目测试计划编写,测试需求分析,以及测试用例的设计编写和执行操作,通过完成实际的功能业务测试 ...

最新文章

  1. 抗侧力构件弹性位移如何计算_穿心棒法盖梁施工计算书(工字钢)
  2. DYNP_VALUES_READ 获取屏幕动态值
  3. 一个数据应用闭环(转载)
  4. java Concurrent包学习笔记(一):ExecutorService
  5. 带电插拔损坏设备原理_Win10拔U盘不用再点“安全弹出”了,XP和Win7老用户都眼馋了...
  6. 消息中间件的技术选型心得-RabbitMQ ActiveMQ和ZeroMQ
  7. Dart最新消息:Angular 2 Dart及Flutter发布
  8. python图形化进度条代码_Python实现进度条和时间预估的示例代码
  9. Linux系统管理_附加控制权限-Redhat Enterprise 5
  10. axis2调用webservice
  11. 工作上碰到的技术问题积累
  12. 深入浅出工厂设计模式
  13. 通过CN3口直接控制台达伺服电机A2-M(一)
  14. beyond 注册表删除
  15. 深度linux12.12安装,深度Linux 12.12 Alpha发布
  16. apk+html启动页,案例——APP启动页
  17. 【Lv1-Lesson004】Imperative Sentences
  18. 如何基于EasyCVR视频技术实现智慧移动执法?
  19. 6.Striped64源码解析
  20. 新手学PS要怎么起步?

热门文章

  1. 图解 Java 线程的生命周期,看完再也不怕面试官问了
  2. List、Array与ArrayList
  3. 一起撸个朋友圈吧(step5) - 控件篇【评论控件优化】
  4. 窄带物联网有望结束技术应用“碎片化”
  5. 【SAP BI】BW如何连接SQLSERVER数据库
  6. [转载]基于MVC4+EasyUI的Web开发框架经验总结(8)--实现Office文档的预览
  7. php开启与关闭错误提示
  8. js调用php和php调用js的方法举例
  9. 让JavaScript回归函数式编程的本质
  10. JadePool应用范例:创建China软件项目