随着移动互联网的市场份额逐步扩大,手机APP已经占据我们的生活,以往的数据分析都借助于爬虫爬取网页数据进行分析,但是新兴的产品有的只有APP,并没有网页端这对于想要提取数据的我们就遇到了些问题,本章以豆果美食APP为例给大家演示如何提取手机的数据。

安装Fiddler

安装过程就是下一步下一步最后完成即可,安装好了以后需要配置一些内容

设置允许抓取HTTPS信息包

打开下载好的fiddler,找到 Tools ->

Options,然后在HTTPS的工具栏下勾选Decrpt HTTPS traffic,在新弹出的选项栏下勾选Ignore server

certificate errors。这样,fiddler就会抓取到HTTPS的信息包

设置允许外部设备发送HTTP/HTTPS到fiddler

在Connections选项栏下勾选Allow remote computers to connect

连通手机与电脑

想要抓取手机APP上的数据一大难点就在于,你并不知道他们数据请求的接口地址是多少,在PC端想要抓取一个网站的数据只要访问网址,用抓包工具就可以知道了,所以我们第一步先把环境配置好,就是在手机上访问地址(发送任何网络请求)都可以在电脑上通过Fiddler抓取到。

第一步:先保障手机和电脑上面连接网络,我这里是电脑连的网线,我单独安装了一个Wi-Fi共享精灵,手机(iphone6s)连接上共享出去的wifi

第二步:查看电脑IP地址

先在电脑上打开cmd,输入ipconfig查看IP地址

这里要注意IP地址用的是无线网络连接这个IP地址,不是本地连接的IP地址(坑点)

第三步:手机设置HTTP代理

打开手机无线网络连接,选择已经连接的网络连接,点击一个小圆圈叹号进入可以看到下图,选择配置代理,进入后把刚刚的IP地址输入进去,端口就是Fiddler中设置的8888即可。

第四步:手机和电脑端安装证书

电脑端访问:http://localhost:8888/进行安装

手机访问电脑的IP地址加端口8888即可,我这里的地址是:http://192.168.23.1:8888

第五步:测试通过

最后就是来测试下,打开手机随便一个APP,去访问里面的内容,这时打开fiddler可以看到所发出的网络请求,我这里打开的是豆果美食APP

分析手机APP请求地址

通过观察fiddler中的请求可以发现http://api.douguo.net/persona...,这个就是请求首页中的部分数据,直接把地址复制到网页中可以看到返回的JSON数据

其实这部分内容是最重要也是最困难的一个环节,考验你工作年限的时候到了,要从中剥离出正确的API请求,并分析API中的数据结构,为后续数据分析做准备。

Python3.x爬虫获取数据

这里直接通过urllib.request进行请求即可,这里并没有使用框架,代码如下:

import urllib.request

# 向指定的url地址发送请求,并返回服务器响应的类文件对象

response = urllib.request.urlopen("http://api.douguo.net/personalized/home/0/20")

# 服务器返回的类文件对象支持Python文件对象的操作方法

# read()方法就是读取文件里的全部内容,返回字符串

html = response.read()

# 打印响应内容

print(html.decode("unicode_escape"))

运行代码结果打印数据如下

后续对这个数据是存储,还是分析就是后续的操作了,到此我们就已经完成了从手机APP中提取数据的步骤

python爬虫之app数据抓取实战_Python爬虫工程师必学——App数据抓取实战 ??相关推荐

  1. python爬取app播放的视频,Python爬虫工程师必学——App数据抓取实战视频教程

    爬虫分为几大方向,WEB网页数据抓取.APP数据抓取.软件系统数据抓取.本课程主要为同学讲解如何用python实现App数据抓取,课程从开发环境搭建,App爬虫必备利器详解,项目实战,到最后的多App ...

  2. Android必学之数据适配器BaseAdapter

    Android必学之数据适配器BaseAdapter .什么是数据适配器? 下图展示了数据源.适配器.ListView等数据展示控件之间的关系.我们知道,数据源是各种各样的,而ListView所展示数 ...

  3. python自动化运维与开发岗位_新课 | 运维开发工程师必学的Python自动化运维课程,学完后悔没早点学!...

    原标题:新课 | 运维开发工程师必学的Python自动化运维课程,学完后悔没早点学! 马哥教育2017年Python自动化开发实战班,根据目前企业需求的Python开发人才进行了深度定制,加入了大量一 ...

  4. python爬虫抓取房产_Python爬虫实战(3):安居客房产经纪人信息采集

    1, 引言 Python开源网络爬虫项目启动之初,我们就把网络爬虫分成两类:即时爬虫和收割式网络爬虫.为了使用各种应用场景,该项目的整个网络爬虫产品线包含了四类产品,如下图所示: 本实战是上图中的&q ...

  5. python微博爬虫实战_Python爬虫实战演练:爬取微博大V的评论数据

    本文的文字及图片来源于网络,仅供学习.交流使用,不具有任何商业用途,如有问题请及时联系我们以作处理. 以下文章来源于IT共享之家 ,作者: IT共享者 理论篇 试想一个问题,如果我们要抓取某个微博大V ...

  6. python数据抓取课程_Python爬虫入门教程 21-100 网易云课堂课程数据抓取

    写在前面 今天咱们抓取一下网易云课堂的课程数据,这个网站的数据量并不是很大,我们只需要使用requests就可以快速的抓取到这部分数据了. 你第一步要做的是打开全部课程的地址,找出爬虫规律, 地址如下 ...

  7. python数据抓取课程_Python爬虫入门教程 22-100 CSDN学院课程数据抓取

    1. CSDN学院课程数据-写在前面 今天又要抓取一个网站了,选择恐惧症使得我不知道该拿谁下手,找来找去,算了,还是抓取CSDN学院吧,CSDN学院的网站为 https://edu.csdn.net/ ...

  8. python爬虫抓取分页_Python爬虫—简书首页数据抓取

    简书 本该昨天完成的文章,拖了一天.可能是没休息好吧,昨天的在思路以及代码处理上存在很多问题,废话不多说,我们一起来看一下简书首页数据的抓取. 抓取的信息 2.2)简书首页文章信息 http://ww ...

  9. python爬虫抓取房产_Python爬虫一步步抓取房产信息!

    嗯,这一篇文章更多是想分享一下我的网页分析方法.玩爬虫也快有一年了,基本代码熟悉之后,我感觉写一个爬虫最有意思的莫过于研究其网页背后的加载过程了,也就是分析过程,对性能没有特殊要求的情况下,编程一般是 ...

  10. python爬虫抓取房产_Python爬虫一步步抓取房产信息

    嗯,这一篇文章更多是想分享一下我的网页分析方法.玩爬虫也快有一年了,基本代码熟悉之后,我感觉写一个爬虫最有意思的莫过于研究其网页背后的加载过程了,也就是分析过程,对性能没有特殊要求的情况下,编程一般是 ...

最新文章

  1. 2020-10-27(汇编收获)
  2. C#高级编程9 第17章 使用VS2013-C#特性
  3. grub shell 错误_使用grub-install修复Grub时出错
  4. 微信小程序 WXBizDataCrypt 解密 报错
  5. python技术路线_django开发网站的技术路线?
  6. 屏幕控制实现消息发送以及轰炸
  7. 【CQF Finance Class 3 债券】
  8. html遮罩点击,点击按钮实现遮罩效果
  9. Python利用pptx模块三步将图片插入特定PPT模板
  10. 计算机考研时间科目,2018年考研初试各科目时间安排清单
  11. CVE-2010-0188漏洞点定位
  12. java计算机毕业设计web硕士研究生招生考试专业报考查询及学习系统设计与实现MyBatis+系统+LW文档+源码+调试部署
  13. 世界战争2HTML5小游戏,[娱乐][PCD]SkyWarsReloaded —— 天空战争小游戏全新归来![1.8-1.13.2]...
  14. Flink学习笔记(八):flink热词统计
  15. C51单总线时序图分析与底层编程配置(DS18B20为例)
  16. iOS开发中利用AFNetWorking判读网络是否连接
  17. 电商搜索全链路(PART I)Overview
  18. Win10桌面右键资源管理器崩溃重启的解决办法
  19. openJDK awt 字体支持
  20. ERP财务管理的功能模块及实施步骤

热门文章

  1. 大学最应该学习的 5 门课, 毕业后大厂 Offer 直接拿到手软!
  2. Python Web 编程
  3. 你画我猜 计算机题目,你比我猜游戏爆笑词语(你画我猜题目大全500道)
  4. java单元测试的编写及运行方法
  5. Android移动开发基础案例教程 第3章 Activity
  6. ​基于强化学习的自动交易系统研究与发展综述
  7. mysql 好用 客户端_5款好用的mysql客户端
  8. STL源码剖析 阅读(一)
  9. STL源码剖析heap
  10. 搜索工具推荐 Windows中的everyting 和 mac下的alfred