python3网络爬虫开发实战第二版——12 App数据的爬取

Charles

配置环境

教程
1 基础设置:抓包工具Charles:(二)Charles的代理设置(windows,app)_闫振兴的博客-CSDN博客_charles设置windows代理

2 证书设置:抓包工具Charles:(三)https协议的抓取_闫振兴的博客-CSDN博客


参考:Charles安装与配置

配套视频:软件测试教程Charles抓包工具测试实战_哔哩哔哩_bilibili

Charles 抓包都是unknown

在Charles配置的过程中,忘记允许SSL了
SSL的端口是443
(还有一点就是app传输加密了,而charles不会自动解密的)

mitmproxy

GitHub

安装后 控制台输入 mitmdump 报错

ModuleNotFoundError: No module named ‘_cffi_backend’

运行以下命令

pip -vvv install --upgrade --force-reinstall cffi

Appium

GitHub

安装配置环境比较麻烦

参考:Appium 的安装 | 静觅

环境变量配置参考:Android Studio 和 SDK 环境变量配置_siwuxie095’s blog-CSDN博客

参考:Android Studio: Gradle/Maven配置国内镜像源_gaocui883的博客-CSDN博客_android gradle 国内镜像

Appium Inspector
参考:appium 1.22.0版本 Appium Inspector 连接使用教程_达文西先生的博客-CSDN博客_appium inspector

Appium Inspector 下载

参考:Appium Inspector使用_BUG1314的专栏-CSDN博客_appium inspector

{"platformName": "Android","deviceName": "RMX2117","appPackage": "com.goldze.mvvmhabit","appActivity": ".ui.MainActivity","noRest": true
}

参考:【Appium踩坑】Permission denial: writing to settings requires:android.permission.WRITE_SECURE_SETTINGS_青禾tester-CSDN博客_开发者选项里禁止权限监控

设置 - 更多设置 - 开发者选项 - USB调试(安全设置)- 开启

*OPPO设备: 开启 禁止权限监控
开发者选项 - 禁止权限监控 - 开启

然后会要安装几个应用程序


el2 = driver.find_element_by_xpath("/hierarchy/android.widget.FrameLayout/android.widget.LinearLayout/android.widget.FrameLayout/android.widget.LinearLayout/android.widget.FrameLayout/android.widget.FrameLayout/android.widget.LinearLayout/android.widget.RelativeLayout/android.support.v7.widget.RecyclerView/android.widget.LinearLayout[4]/android.widget.LinearLayout/android.widget.TextView[1]")el2.click()

Python操作app
GitHub

from appium import webdriver # pip install Appium-Python-Client
from selenium.webdriver.common.by import By
from selenium.webdriver.support import expected_conditions as EC
from selenium.webdriver.support.ui import WebDriverWaitserver = 'http://localhost:4723/wd/hub'desired_capabilities = {"platformName": "Android","deviceName": "RMX2117", # 你的手机model号"appPackage": "com.goldze.mvvmhabit","appActivity": ".ui.MainActivity","noReset": True
}driver = webdriver.Remote(server, desired_capabilities)
wait = WebDriverWait(driver, 30)
wait.until(EC.presence_of_all_elements_located((By.XPATH, '//android.support.v7.widget.RecyclerView/android.widget.LinearLayout')))
window_size = driver.get_window_size()
width, height = window_size.get('width'), window_size.get('height')
driver.swipe(width * 0.5, height * 0.8, width * 0.5, height * 0.2, 1000) # 滑动

实战

GitHub

import json
import os
from appium import webdriver
from selenium.webdriver.common.by import By
from selenium.webdriver.support import expected_conditions as EC
from selenium.webdriver.support.ui import WebDriverWait
from selenium.common.exceptions import NoSuchElementException
from loguru import loggerSERVER = 'http://localhost:4723/wd/hub'DESIRED_CAPABILITIES = {"platformName": "Android","deviceName": "RMX2117","appPackage": "com.goldze.mvvmhabit","appActivity": ".ui.MainActivity","noReset": True
}
PACKAGE_NAME = DESIRED_CAPABILITIES['appPackage']  # 包名 为后续编写获取节点的逻辑做准备的
TOTAL_NUMBER = 100  # 电影条目总共有100条driver = webdriver.Remote(SERVER, DESIRED_CAPABILITIES)
wait = WebDriverWait(driver, 30)
window_size = driver.get_window_size()  # 获取屏幕大小
window_width, window_height = window_size.get('width'), window_size.get('height')"""
点击电影条目节点
进入详情页后爬取信息
点击回退按钮返回首页
"""def scrape_detail(element):logger.debug(f'scraping {element}')element.click()wait.until(EC.presence_of_element_located((By.ID, f'{PACKAGE_NAME}:id/detail')))title = wait.until(EC.presence_of_element_located((By.ID, f'{PACKAGE_NAME}:id/title'))).get_attribute('text')categories = wait.until(EC.presence_of_element_located((By.ID, f'{PACKAGE_NAME}:id/categories_value'))).get_attribute('text')score = wait.until(EC.presence_of_element_located((By.ID, f'{PACKAGE_NAME}:id/score_value'))).get_attribute('text')minute = wait.until(EC.presence_of_element_located((By.ID, f'{PACKAGE_NAME}:id/minute_value'))).get_attribute('text')published_at = wait.until(EC.presence_of_element_located((By.ID, f'{PACKAGE_NAME}:id/published_at_value'))).get_attribute('text')drama = wait.until(EC.presence_of_element_located((By.ID, f'{PACKAGE_NAME}:id/drama_value'))).get_attribute('text')driver.back()return {'title': title,'categories': categories,'score': score,'minute': minute,'published_at': published_at,'drama': drama}# 先爬取首页的所有电影条目 返回一个列表
def scrape_index():items = wait.until(EC.presence_of_all_elements_located((By.XPATH, f'//android.widget.LinearLayout[@resource-id="{PACKAGE_NAME}:id/item"]')))return itemsscraped_titles = []OUTPUT_FOLDER = 'movie'
os.path.exists(OUTPUT_FOLDER) or os.makedirs(OUTPUT_FOLDER)def save_data(element_data):with open(f'{OUTPUT_FOLDER}/{element_data.get("title")}.json', 'w', encoding='utf-8') as f:f.write(json.dumps(element_data, ensure_ascii=False, indent=2))logger.debug(f'saved as file {element_data.get("title")}.json')def get_element_title(element):try:element_title = element.find_element_by_id(f'{PACKAGE_NAME}:id/tv_title').get_attribute('text')return element_titleexcept NoSuchElementException:return Nonedef scroll_up():driver.swipe(window_width * 0.5, window_height * 0.8,window_width * 0.5, window_height * 0.5, 1000)def main():while len(scraped_titles) < TOTAL_NUMBER:elements = scrape_index()for element in elements:element_title = get_element_title(element)if not element_title or element_title in scraped_titles:continueelement_location = element.locationelement_y = element_location.get('y')if element_y / window_height > 0.8: # 当爬取的节点对于的电影条目差不多是页面高度的80%时logger.debug(f'scroll up')scroll_up()  # 页面上划element_data = scrape_detail(element)scraped_titles.append(element_title)  # 全局变量scraped_titles 用于去重logger.debug(f'scraped data {element_data}')save_data(element_data)if __name__ == '__main__':main()
2021-12-29 20:05:56.274 | DEBUG    | __main__:scrape_detail:36 - scraping <appium.webdriver.webelement.WebElement (session="fa372f83-aba8-4721-a51b-f96abdfa0a33", element="00000000-0000-2a0a-ffff-ffff00000019")>
2021-12-29 20:06:00.072 | DEBUG    | __main__:main:110 - scraped data {'title': '霸王别姬', 'categories': '剧情、爱情', 'score': '9.5', 'minute': '171分钟', 'published_at': '1993-07-26', 'drama': '影片借一出《霸王别姬》的京戏,牵扯出三个人之间一段随时代风云变幻的爱恨情仇。段小楼(张丰毅 饰)与程蝶衣(张国荣 饰)是一对打小一起长大的师兄弟,两人一个演生,一个饰旦,一向配合天衣无缝,尤其一出《霸王别姬》,更是誉满京城,为此,两人约定合演一辈子《霸王别姬》。但两人对戏剧与人生关系的理解有本质不同,段小楼深知戏非人生,程蝶衣则是人戏不分。段小楼在认为该成家立业之时迎娶了名妓菊仙(巩俐 饰),致使程蝶衣认定菊仙是可耻的第三者,使段小楼做了叛徒,自此,三人围绕一出《霸王别姬》生出的爱恨情仇战开始随着时代风云的变迁不断升级,终酿成悲剧。'}
2021-12-29 20:06:00.073 | DEBUG    | __main__:save_data:79 - saved as file 霸王别姬.json
2021-12-29 20:06:01.363 | DEBUG    | __main__:scrape_detail:36 - scraping <appium.webdriver.webelement.WebElement (session="fa372f83-aba8-4721-a51b-f96abdfa0a33", element="00000000-0000-2a0a-ffff-ffff0000001f")>

Airtest 待定

云手机 待定

【爬虫】学习:App数据的爬取相关推荐

  1. 爬虫学习(二)--爬取360应用市场app信息

    欢迎加入python学习交流群 667279387 爬虫学习 爬虫学习(一)-爬取电影天堂下载链接 爬虫学习(二)–爬取360应用市场app信息 代码环境:windows10, python 3.5 ...

  2. 爬虫学习(一)---爬取电影天堂下载链接

    欢迎加入python学习交流群 667279387 爬虫学习 爬虫学习(一)-爬取电影天堂下载链接 爬虫学习(二)–爬取360应用市场app信息 主要利用了python3.5 requests,Bea ...

  3. 从入门到入土:Python爬虫学习|实例练手|爬取猫眼榜单|Xpath定位标签爬取|代码

    此博客仅用于记录个人学习进度,学识浅薄,若有错误观点欢迎评论区指出.欢迎各位前来交流.(部分材料来源网络,若有侵权,立即删除) 本人博客所有文章纯属学习之用,不涉及商业利益.不合适引用,自当删除! 若 ...

  4. python爬虫之股票数据定向爬取

    python爬虫之股票数据定向爬取 功能描述 目标:获取上交所和深交所所有股票的名称和交易的信息 输出:保存到文件中 技术路线:requests-bs4-re 前期分析 选取原则:股票的信息静态存在H ...

  5. 从入门到入土:Python爬虫学习|实例练手|爬取百度翻译|Selenium出击|绕过反爬机制|

    此博客仅用于记录个人学习进度,学识浅薄,若有错误观点欢迎评论区指出.欢迎各位前来交流.(部分材料来源网络,若有侵权,立即删除) 本人博客所有文章纯属学习之用,不涉及商业利益.不合适引用,自当删除! 若 ...

  6. 从入门到入土:Python爬虫学习|实例练手|爬取新浪新闻搜索指定内容|Xpath定位标签爬取|代码注释详解

    此博客仅用于记录个人学习进度,学识浅薄,若有错误观点欢迎评论区指出.欢迎各位前来交流.(部分材料来源网络,若有侵权,立即删除) 本人博客所有文章纯属学习之用,不涉及商业利益.不合适引用,自当删除! 若 ...

  7. 从入门到入土:Python爬虫学习|实例练手|爬取百度产品列表|Xpath定位标签爬取|代码注释详解

    此博客仅用于记录个人学习进度,学识浅薄,若有错误观点欢迎评论区指出.欢迎各位前来交流.(部分材料来源网络,若有侵权,立即删除) 本人博客所有文章纯属学习之用,不涉及商业利益.不合适引用,自当删除! 若 ...

  8. python爬虫学习笔记分析Ajax爬取果壳网文章

    有时在使用requests抓取页面会遇到得到的结果与在浏览器 中看到的结果不一样,在浏览器检查元素中可以看到的正常的显示的网页数据,但是requests请求得到的结果却没有.这是因为requests请 ...

  9. python爬虫学习(一)爬取boss直聘一页数据

    第一次爬数据遇到了很多坎儿,游走在各大大佬们的经验贴中,最终顺利完成任务,记录下来,以便我这猪脑忘记! (一)任务 爬取"上海市"+"web前端"+" ...

最新文章

  1. 怎么解决svn清理失败且路径显示乱码问题
  2. linux如何搭建mqtt服务器,【MQTT】在Ubuntu下搭建MQTT服务器
  3. 湘源控规8.0_湘源控规8.0新版本发布
  4. 手把手教你用Python进行SSH暴力破解
  5. 深入解析PHP中逗号与点号的区别
  6. mysql属于数据库三级模式_数据库系统的三级模式指的是什么
  7. 数字与中文信息的结合记忆(下)
  8. 【转】opengl的一些小问题
  9. Notes配置初始化和重新设置(不卸载)
  10. 视频分析服务器作用,如何选择合适的视频分析解决方案?
  11. win10 安装 framework3.5
  12. apipost如何使用mock测试
  13. 盘点近年来的各国各行较知名的互联网安全事件
  14. linux bridge vlan,Linux Bridge实现Vlan
  15. D:\ProgramData\Anaconda3\envs\test_onnx\python.exe: No module named pip
  16. (已解决)windows2020卸载office2013(安装程序包语言不受系统支持)
  17. activiti启动流程的过程中BUSSINESS_KEY没有获取到key
  18. springboot如何在接收和返回json时下划线转驼峰以及驼峰转下划线
  19. f49.in index.php,国家语言,语言代码,locale id对应表
  20. Performing Basic Amazon S3 Bucket Operations

热门文章

  1. 财务盈利、偿债能力指标
  2. 南京视觉计算机培训,南京视觉艺术职业学院
  3. IE6及IE8默认SSL设置
  4. 腾讯 Matrix 增量编译 bug 解决之路,PR 已通过
  5. linux恢复安卓数据,安卓数据恢复2 - ranfs的个人空间 - OSCHINA - 中文开源技术交流社区...
  6. java x7变速_X7-G500变速键盘的基本原理
  7. 自制Kindle电子书转化的实用技巧
  8. PYTHON SELENIUM的学习笔记
  9. 打印店打印黑白A4纸收费1元一张贵吗?
  10. (SubMenu)选项菜单和子菜单应用