python爬虫之app数据抓取实战_Python爬虫工程师必学——App数据抓取实战 ??
随着移动互联网的市场份额逐步扩大,手机APP已经占据我们的生活,以往的数据分析都借助于爬虫爬取网页数据进行分析,但是新兴的产品有的只有APP,并没有网页端这对于想要提取数据的我们就遇到了些问题,本章以豆果美食APP为例给大家演示如何提取手机的数据。
安装Fiddler
安装过程就是下一步下一步最后完成即可,安装好了以后需要配置一些内容
设置允许抓取HTTPS信息包
打开下载好的fiddler,找到 Tools ->
Options,然后在HTTPS的工具栏下勾选Decrpt HTTPS traffic,在新弹出的选项栏下勾选Ignore server
certificate errors。这样,fiddler就会抓取到HTTPS的信息包
设置允许外部设备发送HTTP/HTTPS到fiddler
在Connections选项栏下勾选Allow remote computers to connect
连通手机与电脑
想要抓取手机APP上的数据一大难点就在于,你并不知道他们数据请求的接口地址是多少,在PC端想要抓取一个网站的数据只要访问网址,用抓包工具就可以知道了,所以我们第一步先把环境配置好,就是在手机上访问地址(发送任何网络请求)都可以在电脑上通过Fiddler抓取到。
第一步:先保障手机和电脑上面连接网络,我这里是电脑连的网线,我单独安装了一个Wi-Fi共享精灵,手机(iphone6s)连接上共享出去的wifi
第二步:查看电脑IP地址
先在电脑上打开cmd,输入ipconfig查看IP地址
这里要注意IP地址用的是无线网络连接这个IP地址,不是本地连接的IP地址(坑点)
第三步:手机设置HTTP代理
打开手机无线网络连接,选择已经连接的网络连接,点击一个小圆圈叹号进入可以看到下图,选择配置代理,进入后把刚刚的IP地址输入进去,端口就是Fiddler中设置的8888即可。
第四步:手机和电脑端安装证书
电脑端访问:http://localhost:8888/进行安装
手机访问电脑的IP地址加端口8888即可,我这里的地址是:http://192.168.23.1:8888
第五步:测试通过
最后就是来测试下,打开手机随便一个APP,去访问里面的内容,这时打开fiddler可以看到所发出的网络请求,我这里打开的是豆果美食APP
分析手机APP请求地址
通过观察fiddler中的请求可以发现http://api.douguo.net/persona...,这个就是请求首页中的部分数据,直接把地址复制到网页中可以看到返回的JSON数据
其实这部分内容是最重要也是最困难的一个环节,考验你工作年限的时候到了,要从中剥离出正确的API请求,并分析API中的数据结构,为后续数据分析做准备。
Python3.x爬虫获取数据
这里直接通过urllib.request进行请求即可,这里并没有使用框架,代码如下:
import urllib.request
# 向指定的url地址发送请求,并返回服务器响应的类文件对象
response = urllib.request.urlopen("http://api.douguo.net/personalized/home/0/20")
# 服务器返回的类文件对象支持Python文件对象的操作方法
# read()方法就是读取文件里的全部内容,返回字符串
html = response.read()
# 打印响应内容
print(html.decode("unicode_escape"))
运行代码结果打印数据如下
后续对这个数据是存储,还是分析就是后续的操作了,到此我们就已经完成了从手机APP中提取数据的步骤
python爬虫之app数据抓取实战_Python爬虫工程师必学——App数据抓取实战 ??相关推荐
- python爬取app播放的视频,Python爬虫工程师必学——App数据抓取实战视频教程
爬虫分为几大方向,WEB网页数据抓取.APP数据抓取.软件系统数据抓取.本课程主要为同学讲解如何用python实现App数据抓取,课程从开发环境搭建,App爬虫必备利器详解,项目实战,到最后的多App ...
- Android必学之数据适配器BaseAdapter
Android必学之数据适配器BaseAdapter .什么是数据适配器? 下图展示了数据源.适配器.ListView等数据展示控件之间的关系.我们知道,数据源是各种各样的,而ListView所展示数 ...
- python自动化运维与开发岗位_新课 | 运维开发工程师必学的Python自动化运维课程,学完后悔没早点学!...
原标题:新课 | 运维开发工程师必学的Python自动化运维课程,学完后悔没早点学! 马哥教育2017年Python自动化开发实战班,根据目前企业需求的Python开发人才进行了深度定制,加入了大量一 ...
- python爬虫抓取房产_Python爬虫实战(3):安居客房产经纪人信息采集
1, 引言 Python开源网络爬虫项目启动之初,我们就把网络爬虫分成两类:即时爬虫和收割式网络爬虫.为了使用各种应用场景,该项目的整个网络爬虫产品线包含了四类产品,如下图所示: 本实战是上图中的&q ...
- python微博爬虫实战_Python爬虫实战演练:爬取微博大V的评论数据
本文的文字及图片来源于网络,仅供学习.交流使用,不具有任何商业用途,如有问题请及时联系我们以作处理. 以下文章来源于IT共享之家 ,作者: IT共享者 理论篇 试想一个问题,如果我们要抓取某个微博大V ...
- python数据抓取课程_Python爬虫入门教程 21-100 网易云课堂课程数据抓取
写在前面 今天咱们抓取一下网易云课堂的课程数据,这个网站的数据量并不是很大,我们只需要使用requests就可以快速的抓取到这部分数据了. 你第一步要做的是打开全部课程的地址,找出爬虫规律, 地址如下 ...
- python数据抓取课程_Python爬虫入门教程 22-100 CSDN学院课程数据抓取
1. CSDN学院课程数据-写在前面 今天又要抓取一个网站了,选择恐惧症使得我不知道该拿谁下手,找来找去,算了,还是抓取CSDN学院吧,CSDN学院的网站为 https://edu.csdn.net/ ...
- python爬虫抓取分页_Python爬虫—简书首页数据抓取
简书 本该昨天完成的文章,拖了一天.可能是没休息好吧,昨天的在思路以及代码处理上存在很多问题,废话不多说,我们一起来看一下简书首页数据的抓取. 抓取的信息 2.2)简书首页文章信息 http://ww ...
- python爬虫抓取房产_Python爬虫一步步抓取房产信息!
嗯,这一篇文章更多是想分享一下我的网页分析方法.玩爬虫也快有一年了,基本代码熟悉之后,我感觉写一个爬虫最有意思的莫过于研究其网页背后的加载过程了,也就是分析过程,对性能没有特殊要求的情况下,编程一般是 ...
- python爬虫抓取房产_Python爬虫一步步抓取房产信息
嗯,这一篇文章更多是想分享一下我的网页分析方法.玩爬虫也快有一年了,基本代码熟悉之后,我感觉写一个爬虫最有意思的莫过于研究其网页背后的加载过程了,也就是分析过程,对性能没有特殊要求的情况下,编程一般是 ...
最新文章
- 2020-10-27(汇编收获)
- C#高级编程9 第17章 使用VS2013-C#特性
- grub shell 错误_使用grub-install修复Grub时出错
- 微信小程序 WXBizDataCrypt 解密 报错
- python技术路线_django开发网站的技术路线?
- 屏幕控制实现消息发送以及轰炸
- 【CQF Finance Class 3 债券】
- html遮罩点击,点击按钮实现遮罩效果
- Python利用pptx模块三步将图片插入特定PPT模板
- 计算机考研时间科目,2018年考研初试各科目时间安排清单
- CVE-2010-0188漏洞点定位
- java计算机毕业设计web硕士研究生招生考试专业报考查询及学习系统设计与实现MyBatis+系统+LW文档+源码+调试部署
- 世界战争2HTML5小游戏,[娱乐][PCD]SkyWarsReloaded —— 天空战争小游戏全新归来![1.8-1.13.2]...
- Flink学习笔记(八):flink热词统计
- C51单总线时序图分析与底层编程配置(DS18B20为例)
- iOS开发中利用AFNetWorking判读网络是否连接
- 电商搜索全链路(PART I)Overview
- Win10桌面右键资源管理器崩溃重启的解决办法
- openJDK awt 字体支持
- ERP财务管理的功能模块及实施步骤