最近朋友炒鞋子,要抓取毒上的历史购买数据做参考。H5的页面跟app不一样,正好少了历史购买数据这块,只好通过APP来想办法了。下面是基于app操作的思路。

毒的2个主要页面,通过adb命令可获取。

usb连接手机后,打开毒app相关的页面,在电脑上执行:

adb shell "dumpsys window | grep mCurrentFocus"

获取2个主要activity界面:

产品详细页: com.shizhuang.duapp/com.shizhuang.duapp.modules.product.ui.activity.ProductDetailActivity

历史售价页:com.shizhuang.duapp/com.shizhuang.duapp.modules.product.ui.activity.SoldListActivity

先用fiddler截获的了试试,得到了获取历史购买数据的API,如下:

https://app.poizon.com/api/v1/app/product/ice/lastSoldList?X-Auth-Token=XXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXX

直接用这个api带参数试了试,结果显示提示“签名认证出错”。通过jadx反编译了apk文件,涉及太多token和sign,太复杂,改用识别截图方式进行。

首先把app打开到商品列表页面,如下:

采用“adb shell /system/bin/screencap -p /sdcard/screenshot.png“和”adb pull /sdcard/screenshot.png e:\temp“把上图截屏到电脑上,然后通过windows的图画打开,确定商品点击区域的像素坐标,比如(350,420)是第一列第一排的商品坐标。

采用“adb shell input tap 350 420”,模拟点击,打开商品详情页,历史价格不在第一屏。

采用“adb shell input swipe 250 900 300 200”往上滑动,再截屏如下,看到了最近购买:

采用“adb shell input tap 1000 1200”,模拟点击“最近购买”后“全部”所在区域,进入历史购买列表页。

再进行截屏保存到电脑指定目录,然后通过

“tesseract screenshot.png scre -l chi_sim“进行ocr处理,把图片上的文字识别出来,保存到sre文本文件中

内容如下:

Air Jordan 1 Mid 丝 绸 伯 爵

,dx8 42.5 码 #1099 2 分 钟 前

导 肖 *9 43 码 #1099 2 分 钟 前

刑 买 *J 40.5 码 #1219 7 分 钟 前

勇 大 *g 43 码 #1099 20 分 钟 前

雷 文 <z 43 码 #1089 23 分 钟 前

惧 蔚 * 一 41 码 #1199 24 分 钟 前

象 a:5 42.5 码 #1099 25 分 钟 前

凶 绅 *a 40.5 码 #1219 27 分 钟 前

回 年 * 酒 44 码 #989 31 分 钟 前

弗 国 * 霖 41 码 #1199 32 分 钟 前

回 年 * 酒 44 码 #989 38 分 钟 前

园 dxc 40.5 码 #1249 46 分 钟 前

畹 爱 *P 42.5 码 #1099 51 分 钟 前

霁 n*xz 42 码 #1149 58 分 钟 前

主要的历史价格内容都识别出来,文本内容就比较好处理了。

毒(得物)APP历史购买数据抓取相关推荐

  1. 企查查app新增企业数据抓取

    企查查每日新增企业数据抓取 尚未完成的工作: 需要自行抓包获取设备id,appid,sign等等 sign和时间戳保持一致即可 把所有的数据库.redis配置 无法自动登录,账号需要独立 redis数 ...

  2. Python3网络爬虫:腾讯新闻App的广告数据抓取

    废话就不说了,咱们直接上代码 def startGetData(self):index = 0while index < 3:index = index + 1self.url = " ...

  3. Python3网络爬虫:今日头条新闻App的广告数据抓取

    咱们就不说废话了,直接上完整的源码 def startGetData(self):ret = random.randint(2, 10)index = 0 url = "" whi ...

  4. Python3网络爬虫:网易新闻App的广告数据抓取

    咱们就不说废话了,直接上完整的源码 def startGetData(self):self.url = "https://nex.163.com/q" body = self.ge ...

  5. python爬取app播放的视频,Python爬虫工程师必学——App数据抓取实战视频教程

    爬虫分为几大方向,WEB网页数据抓取.APP数据抓取.软件系统数据抓取.本课程主要为同学讲解如何用python实现App数据抓取,课程从开发环境搭建,App爬虫必备利器详解,项目实战,到最后的多App ...

  6. Python爬虫实战:手机APP数据抓取分析!谁说不能爬取app数据的?

    大多数手机APP里面返回的是json格式数据,或者一堆加密过的数据 .这里以超级课程表APP为例,使用python抓取超级课程表里用户发的话题.主要是练习python爬取app的一些方式和技巧. 1. ...

  7. 爬虫_app 4 app数据抓取入门

    一.python实现app数据抓取需求 1.分析豆果美食数据包 2.通过python多线程-线程池抓取数据 3.通过使用代理ip隐藏爬虫 4.将数据保存到 mongodb 中 handle_mongo ...

  8. 「docker实战篇」python的docker-打造多任务端app应用数据抓取系统(下)(35)

    上次已经把python文件挂载到虚拟机上了,这次主要设置下虚拟机通过docker容器的方式. 运行 python 代码运行 >启动一个crt的会话 docker run -it -v /root ...

  9. 22.网络爬虫—APP数据抓取详讲

    网络爬虫-APP数据抓取详讲 Fiddler 工作原理 安装完成Fiddler后的配置 前提条件 工具配置 手机数据抓取 Fiddler手机端配置 手机端操作 实战演示 后记 前言:

  10. 抖音的数据抓取与数据背后的淘宝

    分析的背景 截至今年7月,抖音日活已突破3.2亿.抖音总裁张楠预测,到2020年,国内短视频行业的总日活用户数,将达到10亿.抖音推出多元变现方式,要让1000万创作者赚到钱 ,抖音说要让这1000万 ...

最新文章

  1. Acronis移动方案(四)
  2. python 调用linux命令-Python调用Linux bash命令
  3. 百合网婚礼产品总监徐德生:电商类产品的转化率为何总是令人心碎?
  4. JetBrain常用快捷键+省略输入方式
  5. oracle asm和文件系统,Oracle工具之--ASM与文件系统及跨网络传输文件
  6. Boost:双图bimap与lambda表达式的测试程序
  7. python3怎么使用qstring_请问PyQt的QString和python的string的区别?
  8. Poj 1556 The Doors 计算几何+最短路
  9. python字典循环添加元素_牛鹭学院:学员笔记|python字典、列表、循环
  10. 【英语学习】【WOTD】wiseacre 释义/词源/示例
  11. active mq topic消费后删除_RabbitMQ的常见队列模型:simple、work、fanout、direct、topic等等...
  12. 华为Mate X 5G再次秒售罄;全新折叠屏手机渲染图曝光:确实不一般!
  13. Shell脚本中使用awk进行空格分词
  14. APP分发渠道的竞争分析
  15. hp1015驱动64位_惠普1015打印机驱动下载|惠普 1015驱动电脑版 - 极光下载站
  16. php读取 Excel文件
  17. Python截屏工具,识别屏幕中的二维码
  18. 广东大学计算机基础教材,21世纪高等学校计算机公共基础课规划教材:大学计算机基础(第2版)...
  19. 网络电视广告屏蔽教程
  20. 关于USB鼠标驱动部分及问题解决

热门文章

  1. c语言运动员成绩查询,运动会成绩管理系统
  2. java 调用 cplex
  3. FF14 界面 字变得很小 一种适用于高分辨率笔记本或屏幕下FF14窗口或无边框模式的性能优化方法
  4. 2008-2013年工业企业数据库(EXCEL)
  5. 帧数测试软件苹果,如何监视FPS(每秒帧数)在Mac OS X中进行石英调试 | MOS86
  6. 电话机器人源码部署原理及技术难点
  7. AI智能电话机器人源码搭建揭秘!语音机器人电销机器人源码系统那些事
  8. unable to save settings.xml error 拒绝访问
  9. linux 安装tomcat8和 treeNMS部署
  10. APP性能测试之帧率测试