使用工具:Fiddler+基础爬虫

Fiddler是一个抓包神器,用来检查电脑和互联网之间所有的通讯内容,而且比较简单容易上手,显示的格式也比较友好。

网页基本都会爬了,现在开始要想想如何去爬手机app里的内容了,爬取手机内容的方式也有很多,今填就介绍一个比较简单的组合,使用Fiddler+基础爬虫的形式来爬取,主要的案例就是来爬取知乎app内的热榜内容。知乎热榜

案例:使用fiddler+基础爬虫爬取知乎热榜

前言

首先简单的介绍一下一些网站以及一些手机app的原理,很多网站和手机app基本都是先把架子写好,然后往架子里填充数据,然而这些数据基本都是通过手机app或者网站向服务器发起请求,之后服务器返回json或者xml数据,然后网站或者手机app对数据进行解析到各个地方。之前我写过的一个微信小程序经纬我查查就是通过这种方式来操作的,通过小程序获取用户当前的地址,之后将地址传到服务器进行坐标转换再将结果传回解析到相应的位置。

1.设置Fiddler

先去官方网站下载一个fiddler,具体怎么下载就不说了,下边直接开始说关于如何设置的问题。

找到tools之后打开,选择connections,将图中标记的选项打对

之后再去HTTPS,将相应的内容打对,因为访问HTTPS网站需要下载专门的证书

上的边操作完之后点击ok即可。

2.对手机进行设置

我拿了一个iphone举例子,android机的操作也是类似的,找到无线局域网点圈的位置,android是记入高级设置(要确保计算机和手机在同一局域网内)。

进入之后将HTTP代理调成手动,相应的位置输入相应的内容(电脑ip可以打开cmd输入ipconfig有一个ipv4就是计算机局域网内的ip)

之后用浏览器地址栏输入:电脑ip:8888,会到下列页面,点击圈内的内容即可。

之后安装证书即可

安装完了之后重新连接一下wifi就可以在fiddler内进行抓包了。

3.抓包

打开fiddler之后,在手机上打开知乎app,之后在fiddler内会出现很多http连接

找前边标志位json的

挨个找找,最后发现第二个里边有很多的东西,看起来密密麻麻挺麻烦的,一般会有两个框,第一个大框是request(你向服务器发出的请求,忽略即可),第二个大框是response(服务器返回的内容,有价值)看到里边基本都是/x0a之类的你就要立刻反应出这是unicode编码(详情可以百度)。

之后你复制一下文本,打开unicode转码,将这些代码复制进去猛然发现,这不就是我们要爬取的东西吗?

赶紧回到fiddler把这个api的网址复制下来,

200 OK (application/json)

掐头去尾就得到了api的网址

拿到网址之后赶紧放到浏览器里试一下看看有什么收获

4.爬取

开始写爬虫

爬取结果

里边有一个警告是关于SSL证书,这个不用领会,是因为访问HTTPS协议网站的原因。

5.总结

这个案例拆分之后可以作为爬取知乎热榜练习,爬取手机app内的信息唯一的好处就是不需要去管什么反爬措施,如果直接通过web网页去爬这个热榜就涉及到登录等相关问题。本案例算是一个比较简单的爬取app内信息的实战。fiddler的作用非常大,在遇到反爬做的比较好的网站也可以使用fiddler进行分析各种传送的参数,在写爬虫的时候fiddler是一个非常实用的工具。

下面宣传一下自己的公众号:Bert的理想国,关于爬虫实战案例从 requests到selenium最后到scrapy框架以及scrapy-redis。

python爬取app聊天信息_手把手教你爬取手机app中的信息相关推荐

  1. python 批量下载网页图片_手把手教你爬取天堂网1920*1080大图片(批量下载)——实战篇|python基础教程|python入门|python教程...

    https://www.xin3721.com/eschool/pythonxin3721/ /1 前言/ 上篇文章 手把手教你爬取天堂网1920*1080大图片(批量下载)--理论篇我们谈及了天堂网 ...

  2. python爬取资料怎么样_手把手教你Python爬取新房数据

    原标题:手把手教你Python爬取新房数据 项目背景 新房数据,对于房地产置业者来说是买房的重要参考依据,对于房地产开发商来说,也是分析竞争对手项目的绝佳途径,对于房地产代理来说,是踩盘前的重要准备. ...

  3. python百度贴吧怎么爬取最早的帖子_【Python爬虫教学】百度篇·手把手教你抓取百度贴吧任意贴吧指定范围页数内的源代码...

    开门见山. 懒癌一犯,能拖一天是一天. 好了,亲爱的小伙伴们,我又回来了!今天带来的是抓取输入的任意贴吧,抓取指定范围页数内的源代码. 工具: 依旧是 PyCharm 和 Google 浏览器,pyt ...

  4. python爬取网页文本_手把手教你如何用Python爬取网站文本信息

    提取网页源代码--Requests 工具包 在我们提取网络信息之前,我们必须将网页的源代码进行提取,Requests工具包现在可以说是最好用和最普及的静态网页爬虫工具,它是由大神Kenneth Rei ...

  5. 如何用python抓取qq音乐_手把手教你使用Python抓取QQ音乐数据(第三弹)-阿里云开发者社区...

    [一.项目目标] 通过手把手教你使用Python抓取QQ音乐数据(第一弹)我们实现了获取 QQ 音乐指定歌手单曲排行指定页数的歌曲的歌名.专辑名.播放链接. 通过手把手教你使用Python抓取QQ音乐 ...

  6. python音乐的数据抓取与分析_手把手教你使用Python抓取QQ音乐数据!

    [一.项目目标] 通过手把手教你使用Python抓取QQ音乐数据(第一弹)我们实现了获取 QQ 音乐指定歌手单曲排行指定页数的歌曲的歌名.专辑名.播放链接. 通过手把手教你使用Python抓取QQ音乐 ...

  7. 怎么批量在数字里加入网页_手把手教你爬取天堂网1920*1080大图片(批量下载)——理论篇

    /1 前言/ 平时我们要下载图片,要要一个一个点击下载是不是觉得很麻烦?那有没有更加简便的方法呢?答案是肯定的,这里我们以天堂网为例,批量下载天堂网的图片. /2 项目准备工作/ 首先 我们第一步我们 ...

  8. python 时间序列prophet 模型分析_手把手教你用Prophet快速进行时间序列预测(附Prophet和R代码)...

    原标题:手把手教你用Prophet快速进行时间序列预测(附Prophet和R代码) 作者:ANKIT CHOUDHARY:翻译:王雨桐:校对:丁楠雅: 本文约3000字,建议阅读12分钟. 本文将通过 ...

  9. python网页爬虫循环获取_手把手教你用 Python 搞定网页爬虫

    原标题:手把手教你用 Python 搞定网页爬虫 编译:欧剃 作为数据科学家的第一个任务,就是做网页爬取.那时候,我对使用代码从网站上获取数据这项技术完全一无所知,它偏偏又是最有逻辑性并且最容易获得的 ...

最新文章

  1. hdu 5563 Clarke and five-pointed star (枚举)
  2. 图像降噪算法——中值滤波/均值滤波/高斯滤波/双边滤波
  3. python3精要(45)-exit
  4. ESP32连接亚马逊你不得不知道的坑
  5. JIT的Profile神器JITWatch
  6. 不止性能优化,移动端 APM 产品研发技能
  7. linux rc文件是什么,linux通常使用的 rc 和 .(点)文件
  8. understanding the Euler Lagrange equation
  9. VM虚拟机完美运行macos
  10. qq传输文件为什么服务器忙,qq传送离线 接收文件很慢怎么回事
  11. H5 --(解决)ios的webview中上/下拉露出黑灰色背景问题
  12. End-to-End Object Detection with Fully Convolutional Network
  13. 四元数与旋转——学习笔记(一)
  14. 初探 ModBus4j -简单使用指南
  15. 启动项目报错 Failed to bind properties under
  16. (JavaScript)贪婪模式和非贪婪模式(懒惰模式)
  17. WordPress主题-柒比贰B2 V2.9.9主题去授权无限制
  18. WPF实现类似MDI子窗体的功能
  19. Python 骚操作 之 内层for循环如何break出外层的循环(跳出两层循环)
  20. 简约卡通风格404单页模板

热门文章

  1. xp计算机出厂日期,xp电脑系统时间不对怎么办
  2. python CTP 8193 心跳超时程序崩溃解决方法——8193错误
  3. dbevar mysql 驱动_LnCeVar:基因组变异对于ceRNA调控影响的数据库
  4. CAD怎么转换格式?CAD怎么转换为JPG格式?
  5. 获取页面链接后携带的参数
  6. C# VS2013生成的exe文件修改图标
  7. 倍福--通过第三方的EDS文件配置EIP从站的信号
  8. java并发文字总结
  9. 转:漫谈重构 郭昂
  10. JavaFX基础:1: 简介