前言

文的文字及图片来源于网络,仅供学习、交流使用,不具有任何商业用途,版权归原作者所有,如有问题请及时联系我们以作处理。

作者: 风,又奈何

PS:如有需要Python学习资料的小伙伴可以加点击下方链接自行获取

python免费学习资料以及群交流解答点击即可加入


环境准备

  • fiddler
  • appium
  • mitmproxy(mitmdump)
  • python3.6
  • 自带root的安卓虚拟机
  • Android SDK

安卓模拟器需要安装xposed框架并安装JustTrustMe组件,因为抖音会有ssl验证,会导致我们在将数据发送到我们的抓包工具的时候无法联网,所以需要安装这个组件来关闭ssl验证

mitmproxy、AndroidSDK需要加入环境变量,这步就不再叙述

项目准备

首先我们需要给虚拟机安装fiddler、mitmproxy的证书

1)fiddler 主要设置如下



端口设置可以随意更改,本文设置为8889

电脑主机打开命令行 输入ipconfig查看本机IP

设置模拟器的代理

接下来打开浏览器,输入 ip:prot 如本机为 117.90.211.134:8889 下载安装fiddler证书 如下步骤

接下来我们就可以使用fiddler正确的抓取手机数据包了

2)mitmproxy证书

我们在Windows系统上常用的是mitmproxy的mitmdump 打开cmd输入mitmdump -p 端口号 就可以启动服务

为了方便我们将端口号也设置为8889 但是开启这个的时候需要先关闭fiddler 不然会端口冲突,然后打开模拟器的浏览器看看能否接受数据

我们发现出问题了,发现现在直接提示空的响应而不是证书的问题,看到mitmdump报的错误是 killed by block_global 是什么原因呢?

这是mitmdump的自我保护措施,它防止全球网络的连接,意思就是如果是本地局域网它不会阻拦,那该怎么办呢?

有两种解决办法:第一种,将模拟器的网络连接设置为桥接模式,这样就不会出现问题;

第二种办法是启动的时候加入参数 mitmdump -p 8889 --set block_global=false 如下图

接下来 安装mitmproxy的证书 浏览器输入网址 mitm.it 然后安装证书

现在再打开网页就不会出现证书的提醒了

这时候我们需要用的主要两个抓包工具的证书就安装完成了,需要注意的是我们每次测试都可能需要重新安装证书,因为我们的主机IP可能会变

App分析

首先呢我们先确认模拟器中的xposed框架的JustTrustMe组件是否开启 不然我们抖音App不能正常访问网络

注意以下步骤只能在网络桥接模式下使用(或者使用真机与电脑在同一个网络) 否则fiddler无法抓取到所有的包

首先使用fiddler分析,打开fiddler 并打开抖音进行操作 本项目是爬取cxk坤坤的粉丝数据,所以我们先进入他的抖音主页点进粉丝列表

粉丝好多,我们接下来向下滑动,看看当向下滑动刷新出更多粉丝的时候 fiddler会抓取到什么数据

会发现每次向下滑动的时候都会有一个含有 aweme/v1/user/follower/list/ 的网址,我们怀疑这就是粉丝数据的接口 我们把这个网址返回来的数据放入 json.cn 看看

还真的就是粉丝数据,会发现每次滑动更新的是二十个粉丝,所以我们就找对了方向,下面我们来分析这个请求

GET https://aweme-hl.snssdk.com/aweme/v1/user/follower/list/?user_id=103313639528&sec_user_id=MS4wLjABAAAAxj2Cuu75g3I2pGOs7jtw5XN6WMiCKbA-jfIjlONRRvM&max_time=1570336550&count=20&offset=0&source_type=1&address_book_access=1&gps_access=1&openudid=3ca06768d1f58615&version_name=8.1.1&ts=1570336895&device_type=OPPO%20R11&ssmix=a&iid=87664447665&app_type=normal&os_api=19&mcc_mnc=46007&device_id=68799320259&resolution=720*1280&device_brand=OPPO&aid=1128&manifest_version_code=811&app_name=aweme&_rticket=1570336895512&os_version=4.4.2&device_platform=android&version_code=811&update_version_code=8112&ac=wifi&dpi=240&uuid=866174010601603&language=zh&channel=tengxun_new HTTP/1.1

我们会发现这个请求的url带有很多很多的参数,没错,这是抖音自身的加密方法,要破解这个可得好一会了,所以我们无法使用requests直接构造请求来获得数据了,那我们该如何获取数据呢?

没错就是使用mitmdump,mitmdump有个最大的好处就是可以与python文件交互,我们可以直接使用python写好命令,使用mitmdump抓包,我们手动的滑动就可以解析出数据了

编写douyin_mitmdump.py文件 代码如下:

import json#函数名必须这样写 这是mitmdump规则
def response(flow):#下面这个网址是通过fiddler获取到的 但是有些数据我们无法解密,所以需要用mitmdump捕获数据包然后做分析if 'aweme-hl.snssdk.com/aweme/v1/user/follower/list' in flow.request.url:for user in json.loads(flow.response.text)['followers']:user_info={}user_info['nickname'] = user['nickname']user_info['share_id'] = user['uid']user_info['douyin_id'] = user['short_id']#有的用户修改了抖音号if user_info['douyin_id'] == '0':user_info['douyin_id'] = user['unique_id']print(user_info)

现在打开cmd并切换到项目目录下 执行命令 mitmdump -p 8889 -s douyin_mitmdump.py

接下来手动滑动界面看看会不会解析数据

好的 现在我们已经成功的分析出来了粉丝数据,但是我们总不能一直鼠标滑动吧?所以我们现在需要使用Appium进行自动化测试模拟滑动

Appium自动化测试模拟滑动

配置信息

Appium是一个开源测试自动化框架,可用于原生,混合和移动Web应用程序测试。 它使用WebDriver协议驱动iOS,Android和Windows应用程序。

比如本文我们就使用appium来实现从点开程序到模拟滑动的全部操作。

首先我们需要在电脑上安装Appium

这个相当于appium服务端,我们在执行自动化测试的时候需要先在电脑上打开服务端,然后我们使用程序连接虚拟机或真机执行脚本进行自动化测试 点击start server打开服务端

我们首先使用appium 自带的测试程序来试一下如何操作 点击右上角的放大镜符号

进入配置选项界面 开始填写选项信息

下面我来解释每个参数都是如何得到的

1)platformName 这是平台名称 我们填写 Andriod 相信不用过多解释

2)platformVersion 这是问平台版本信息,根据各个手机不同自主填写,本文使用的是 Andriod4.4.2

3)deviceName 这个是设备的名称,我们如何获取呢?

这个时候就用到了我们AndroidSDK中的adb工具了 adb是用来连接电脑与手机的工具 我们把手机进入开发者选项并打开允许USB调试,然后打开命令行输入命令 adb devices看看有没有输出

返回的127.0.0.1:52001就是设备名称 这个是模拟器的名称,使用真机会不同 (如果没有返回就关闭开发者模式重新打开USB调试多试几次)

4)appPackage、appActivity这俩个参数非常重要,它指定了我们自动化测试的app,这两个参数获取有点麻烦,下面详解如何获取

首先手机打开App,本文就是抖音了,然后电脑命令行输入 adb shell 进入交互界面 然后输入命令 dumpsys activity | grep mFocusedActivity

第一个就是包名,第二个就是activity名 我们记下来一会编写进去(activity名称前要跟着包名)

即 包名com.ss.android.ugc.aweme activity名com.ss.android.ugc.aweme.main.MainActivity

5)noReset unicodekeyboard resetkeyboard解释会在一会的程序中

然后点击右下方保存配置信息并start session 如果点击start session发现手机自动打开抖音时,就说明我们的配置信息写对了,就可以开始使用了

这些配置信息一会要在我们的python脚本中使用,所以一定要填写正确

内容分析

其实app自动化测试跟网页爬虫很相似,首先分析我们该怎么做

点开抖音这一步已经不用我们去做 然后我们需要依次点左上角放大镜按钮、点击搜索框输入抖音号、点击搜索、点击用户、点击进入主页、点击粉丝、向上滑动


我们该如何定位按钮以及输入信息呢?

这又得使用AndroidSDK中的工具了 这次使用 AndroidSDK\tools\monitor.bat 中的monitor 可能有的小伙伴会问 为什么不使用可以查看xpath的魔改版的uiautomatorviewer呢?这是因为我在测试的时候发现现在抖音加入了某种时钟,我们都知道uiautomatorviewer无法获取动态页面的数据,而我发现monitor有的界面却可以,所以使用monitor,下面开始

首先用鼠标点击左边画蓝色圈的地方获取当前手机界面数据,然后鼠标点击我们需要的控件,之后右边出现的就是我们需要的信息,我们可以通过resource-id查找指定数据

现在先来编写douyin_appium.py文件测试下能否自动打开抖音并点击左上方放大镜按钮

from appium import webdriver
#WebDriverWait用来加入时间判断,有时候控件元素需要过一段时间才会出现
from selenium.webdriver.support.ui import WebDriverWait
import time#配置信息
option={"platformName": "Android","platformVersion": "4.4.2","deviceName": "127.0.0.1:52001",#自动化测试包名"appPackage": "com.ss.android.ugc.aweme",#自动化测试Activity"appActivity": "com.ss.android.ugc.aweme.main.MainActivity",#再次启动不需要再次安装"noReset": True,#unicode键盘 我们可以输入中文"unicodekeyboard": True,#操作之后还原回原先的输入法"resetkeyboard":True
}#其中的4723就是appium服务启动时的端口号
driver = webdriver.Remote("http://localhost:4723/wd/hub",option)#放大镜按钮
try:#使用resource-id查找按钮if WebDriverWait(driver,5).until(lambda x:x.find_element_by_id('com.ss.android.ugc.aweme:id/b3o')):#点击按钮driver.find_element_by_id('com.ss.android.ugc.aweme:id/b3o').click()
except:pass

运行之前首先要开启 appium 服务端,即start server

然后运行python文件

好的我们发现已经可以自动的点击放大镜按钮了,那么接下来只需要继续编写文件即可以完成自动化操作了 代码如下

from appium import webdriver
#WebDriverWait用来加入时间判断,有时候控件元素需要过一段时间才会出现
from selenium.webdriver.support.ui import WebDriverWait
import time#配置信息
option={"platformName": "Android","platformVersion": "4.4.2","deviceName": "127.0.0.1:52001",#自动化测试包名"appPackage": "com.ss.android.ugc.aweme",#自动化测试Activity"appActivity": "com.ss.android.ugc.aweme.main.MainActivity",#再次启动不需要再次安装"noReset": True,#unicode键盘 我们可以输入中文"unicodekeyboard": True,#操作之后还原回原先的输入法"resetkeyboard":True
}#其中的4723就是appium服务启动时的端口号
driver = webdriver.Remote("http://localhost:4723/wd/hub",option)#放大镜按钮
try:#使用resource-id查找按钮if WebDriverWait(driver,5).until(lambda x:x.find_element_by_id('com.ss.android.ugc.aweme:id/b3o')):#点击按钮driver.find_element_by_id('com.ss.android.ugc.aweme:id/b3o').click()
except:pass#得到窗口大小
def get_size():x=driver.get_window_size()['width']y=driver.get_window_size()['height']return (x,y)#搜索框
try:# 定位搜索框if WebDriverWait(driver,3).until(lambda x:x.find_element_by_id('com.ss.android.ugc.aweme:id/ad1')):#点击搜索框driver.find_element_by_id('com.ss.android.ugc.aweme:id/ad1').click()#输入抖音号并点解搜索driver.find_element_by_id('com.ss.android.ugc.aweme:id/ad1').send_keys("1307311292")driver.find_element_by_id('com.ss.android.ugc.aweme:id/dy8').click()#点击用户 注意写法 这个控件由于无法获取resource_id与xpath的值 所以只能通过text来查找driver.find_element_by_android_uiautomator("text(\"用户\")").click()
except:pass#点进去具体界面
try:if WebDriverWait(driver,5).until(lambda x:x.find_element_by_id('com.ss.android.ugc.aweme:id/bck')):#进入用户信息界面driver.find_element_by_id('com.ss.android.ugc.aweme:id/bck').click()time.sleep(2)#点击粉丝数driver.find_element_by_id('com.ss.android.ugc.aweme:id/akf').click()
except:pass#得到屏幕尺寸
size = get_size()
#定义滑动
x1 = int(size[0]*0.5)
x2 = int(size[0]*0.7)
y1 = int(size[1]*0.9)
y2 = int(size[1]*0.2)while(True):time.sleep(0.5)#模拟滑动driver.swipe(x1, y1, x2, y2)

Python手机App数据抓取实战:抖音用户的抓取相关推荐

  1. 抖音python真的那么好吗_python看抖音用户画像,摩羯天蝎居然刷得最多?

    日刷抖音三百条,悠悠一笑乐逍遥,夜深忽醒窗外事,不知今夕是何年. 要从上个月说起,那天晚上准备睡觉了,然后朋友突然发来一个抖音热门视频. 一向一本正经苟于工作的我,竟然沉醉于小姐姐的甜蜜的笑容,加之想 ...

  2. 抖音短视频数据抓取实战系列(三)——Fiddler抓取抖音用户详细信息数据

    抖音短视频数据抓取实战系列(三)--Fiddler抓取抖音用户详细信息数据 项目目录 1.抖音短视频数据抓取实战系列(〇)--前言 2.抖音短视频数据抓取实战系列(一)--模拟器的选择与设置 3.抖音 ...

  3. Python爬虫实战:手机APP数据抓取分析!谁说不能爬取app数据的?

    大多数手机APP里面返回的是json格式数据,或者一堆加密过的数据 .这里以超级课程表APP为例,使用python抓取超级课程表里用户发的话题.主要是练习python爬取app的一些方式和技巧. 1. ...

  4. 以某乎为实战案例,教你用Python爬取手机App数据

    1 前言 最近爬取的数据都是网页端,今天来教大家如何爬取手机端app数据(本文以ios苹果手机为例,其实安卓跟ios差不多)! 本文将以『某乎』为实战案例,手把手教你从配置到代码一步一步的爬取App数 ...

  5. python爬取今日头条手机app广告_Scrapy抓手机App数据(今日头条)

    Scrapy第四篇:APP抓取 | 存入MongoDB 咳咳,大家别误会哈,标题不想搞什么大新闻,恰巧是"今日头条"爬虫而已... 以前抓的都是网页端的数据,今天,我们来抓一抓手机 ...

  6. python爬取抖音用户数据_一篇文章教会你用Python抓取抖音app热点数据

    今天给大家分享一篇简单的安卓app数据分析及抓取方法.以抖音为例,我们想要抓取抖音的热点榜数据. 要知道,这个数据是没有网页版的,只能从手机端下手. 首先我们要安装charles抓包APP数据,它是一 ...

  7. Python爬虫+夜神模拟器+Fiddler抓取手机APP数据接口 -- 图文教程(霸霸看了都说好)

    Fiddler的抓包原理 Fiddler是强大的抓包工具,它的原理是以web代理服务器的形式进行工作的,使用的代理地址是:127.0.0.1,端口默认为8888,我们也可以通过设置进行修改. 代理就是 ...

  8. python爬虫之app数据抓取_Python爬虫入门教程 29-100 手机APP数据抓取 pyspider

    1. 手机APP数据----写在前面 继续练习pyspider的使用,最近搜索了一些这个框架的一些使用技巧,发现文档竟然挺难理解的,不过使用起来暂时没有障碍,估摸着,要在写个5篇左右关于这个框架的教程 ...

  9. 教你用Python爬取手机App数据!居然有人说爬不了APP

    最近爬取的数据都是网页端,今天来教大家如何爬取手机端app数据(本文以ios苹果手机为例,其实安卓跟ios差不多)! 本文将以『某乎』为实战案例,手把手教你从配置到代码一步一步的爬取App数据! 2. ...

  10. burpsuite抓取手机app数据包(通过笔记本开热点方式)

    burpsuite抓取手机app数据包(通过笔记本开热点方式) 1,点击笔记本右下方网络图标,出现移动热点,右键转到设置 进去之后设置热点名称密码,手机连接热点,笔记本查看连接设备的网段,这儿可以看到 ...

最新文章

  1. java 数字三角形_数字三角形 Number Triangles(java的MLE解决办法)
  2. linux同步到对象存储,将Cpanel备份配置为S3对象存储的方法
  3. gperftools mysql_利用 gperftools 对nginx mysql 内存管理 性能优化
  4. 【牛客 - 369C】小A与欧拉路(bfs树的直径)
  5. 十一、MySQL视图学习笔记(详解)
  6. 微信发卡小程序源码-自动发卡小程序源码-带流量主功能
  7. div自动滚动_从手机滚动丢帧问题,学习浏览器合成与渲染层优化
  8. ifound Android wifi,方正新品记录仪iFound V1号称黑夜变白天,真的假的?
  9. JS按字节截取字符长度实例
  10. memset 和 fill 初始化数组
  11. Atitit Cookie安全法 目录 1. cookie分为 会话cookie 和 持久cookie , 1 1.1. 安全措施 1 1.2. 3. cookie的同源策略 2 1.3. 安全类库
  12. pycharm导入依赖包
  13. shell中各种括号用法
  14. java电子贺卡_基于JAVA WEB的电子贺卡,请帖制作系统
  15. 基于STM32+华为云IOT设计的云平台监控系统
  16. 重设 Cisco 路由器ASA5505
  17. Error: Java exception was raised during method invocation
  18. c++ stack用法详解
  19. 基于JAVA星星电影购票网站计算机毕业设计源码+系统+数据库+lw文档+部署
  20. 计算机代码英语,计算机专业英语 (四)(示例代码)

热门文章

  1. 软件工程毕设(四)·调研报告
  2. c++实现多对多生产者消费者和socket连用
  3. 液晶电视的驱动板与逻辑板维修
  4. 小学生计算题生成器的python实现
  5. java获取url后缀,以及判断是否带参数(?params=xxx)
  6. Mac如何破解管理员密码
  7. 考研英语近义词与反义词·十三
  8. 计算机英语性考任务答案,国开电大理工英语1单元自测7形考任务答案
  9. 将macOS Big Sur降级到Catalina或Mojave的方法步骤
  10. exsi添加gpu卡 v100s和a100 配置直通模式虚机电源启动失败