应客户需求,要对今日头条App内出现的广告商品进行提取,获取商品名称、价格区间、当前销量、卖家数据等信息。之前他们都是通过人工手动去提取的,效率很低,而且容易遗漏。现在需要通过程序来自动化采集以提高效率。

今日头条App内两种类型的广告:一种是外链的广告,点击后直接跳转到第三方平台(比如京东);另一种是今天头条本身的广告展示系统,域名为jinritemai.com,这类广告有统一的页面结构(如下图所示 https://haohuo.jinritemai.com/views/product/item?id=3360169876621782786),可以做到精准的内容提取。客户主要关注后者。

下面说一下实现过程:

由于今日头条系App(包括抖音)都采用了签名机制,无法自己构造有效的请求。但是应答数据没有加密,我们可以通过抓包轻易从新闻JSON列表中解析出广告数据(如下图所示)。

整体步骤如下:

1.通过adb控制手机上的今日头条App,不断刷新新闻列表,以展示出更多的广告内容。

2.给手机设置设置中间人代理(mitmproxy)。

3.在Mitmporxy脚本中截获头条APP的应答JSON数据,并提取广告跳转链接,发送到主采集进程。

4.在主采集进程中接收广告链接,提取产品属性。

由于客户不懂技术,上述操作都要做到傻瓜式操作。比如手机代理的设置,这个步骤如果要客户手动进行就比较繁琐,需要通过自动化脚本来实现(详见我们之前的文章“如何程序化设置安卓设备的HTTP代理” http://www.site-digger.com/html/articles/20190608/731.html)。

客户要做的就是把手机通过USB连接电脑,双击采集程序,等待输出即可,运行过程截图如下。

采集到的广告商品数据示例如下:

特别说明:本文旨在技术交流,请勿将涉及的技术用于非法用途,否则一切后果自负。如果您觉得我们侵犯了您的合法权益,请联系我们予以处理。

☹ Disqus被Qiang了,之前所有的评论内容都看不到了。如果您有爬虫相关技术方面的问题,欢迎发到我们的问答平台:http://spider.site-digger.com/

python爬取今日头条手机app广告_今日头条App广告采集器的实现相关推荐

  1. 求解Python 爬取百度翻译手机版{errno:997,from:zh,to:en,query:\u4eba\u751f\u82e6\u77ed}怎么办

    环境:python3.7.3 import requestsurl = "https://fanyi.baidu.com/basetrans" data = {"quer ...

  2. python爬取京东评论怎么翻页_爬取京东网页评论(动态网页)

    1.当网页打开的方式不同时,在开发者选项找到的包含评论的文件地址不同,比如第一种,当我们找到的评论界面是含有下一页选项的时候(如下图).我们在左边文件界面发现包含评论的网页地址名字为''product ...

  3. python爬取考研成绩什么时候出来_用Python爬取了考研吧1000条帖子,原来他们都在讨论这些...

    原标题:用Python爬取了考研吧1000条帖子,原来他们都在讨论这些 写在前面 考研在即,想多了解考研er的想法,就是去找学长学姐或者去网上搜索,贴吧就是一个好地方.而借助强大的工具可以快速从网络鱼 ...

  4. python爬取boss直聘招聘信息_年底啦,利用Python爬取Boss直聘的招聘信息,为明年跳槽做准备...

    原标题:年底啦,利用Python爬取Boss直聘的招聘信息,为明年跳槽做准备 前言 为什么都说程序员的薪资高,但是刚开始入职的你,薪资并不是自己想象中的那样,首先是你的工作经验不足,其次就是需要不断的 ...

  5. python爬取天极网手机信息代码

    记录一些遇到的问题以及学习记录: 1.获取到整个网站结构时中文乱码情况 response.encoding = 'gb2312' 编码根据爬取网站的源代码头部设置即可,我也设置了utf-8但也是乱码情 ...

  6. python爬取哔哩哔哩视频_荐爬取哔哩哔哩中的cosplay小视频

    爬取哔哩哔哩小视频 前言:想必大家都对小视频感兴趣吧,今天的爬虫的内容为将哔哩哔哩中的视频下载到本地,今天爬取的网站为 URL : https://vc.bilibili.com/p/eden/all ...

  7. python爬取天眼查存入excel表格_爬虫案例1——爬取新乡一中官网2018届高考录取名单...

    有一种非常常见并且相对简单的网络爬虫,工作流程大概是这样的: 访问目标网页 提取目标网页内表格信息 写入excel文件并保存 初次实践,我决定尝试写一个这样的爬虫.经过一番构思,我准备把爬取新乡一中官 ...

  8. python爬取考研成绩什么时候出来_用Python爬取了考研吧1000条帖子,原来他们都在讨论这些!...

    写在前面 考研在即,想多了解考研er的想法,就是去找学长学姐或者去网上搜索,贴吧就是一个好地方.而借助强大的工具可以快速从网络鱼龙混杂的信息中得到有价值的信息.虽然网上有很多爬取百度贴吧的教程和例子, ...

  9. python爬取的内容不是中午_大年初六中午,全国各区县哪里最冷?

    作者:国服帅座  经济学在读硕士 知乎专栏: https://zhuanlan.zhihu.com/c_1051263791760863232 认识高德地图API 在先前的文章中,我们曾了解过如何在高 ...

  10. python爬取内容为空怎么剔除_用scrapy爬取网站内容时,如何忽略某些内容为空的值;...

    我爬取京东上所有手机信息时会碰到如下问题: 1.返回值过多,如下图片所示: 2.spider代码如下: -- coding: utf-8 -- import scrapy from scrapy.ht ...

最新文章

  1. MVC设计模式深入理解
  2. 微软开源基于云的生理学研究工具
  3. iscsi:IO操作流程(一)
  4. TableViewCell,TableView,UITableViewCell
  5. struck在c语言中的作用,C语言-选择题及答案.doc
  6. mt4 谐波_MT4指标AB=CD Dashboard — AB = CD 谐波模式仪表盘指示器
  7. 小白白红队初成长(2)主动信息收集
  8. java一键生成海报_小程序生成海报(java后端)
  9. STM8L152的LCD模块原理及驱动
  10. 太宰治小说《人间失格》读后感及txt、epub、mobil电子图书下载
  11. 不会汇报工作,还敢拼职场
  12. butter滤波器是iir吗_学习随笔之IIR滤波器与FIR滤波器
  13. 攻略:手把手教你如何看懂以太坊区块链浏览器(配图更清晰)
  14. bzoj1719 [Usaco2006 Jan] Roping the Field 麦田巨画
  15. 三坐标坐标系建立的正确性
  16. C语言程序设计50行以上,C语言程序设计100例——都卡会了,2级绝对没问题了---2...
  17. Unity 的 AudioSourse 播完的监听
  18. 一款轻量级微服务架构网盘系统,你Get了吗
  19. 智慧电力视频监控系统解决电力安全巡检难题
  20. oracle 查询表里信息_如何查看表的历史统计信息

热门文章

  1. 【HTML | CSS】春节将至,为网页挂上精美的灯笼吧(附源码)程序员的浪漫
  2. html页面禁止滚轮事件,javascript实现禁止鼠标滚轮事件
  3. 数字图像学笔记——13. 图像退化与复原(退化函数的评估方法:观察法、实验法、数学建模法与湍流导致的退化)
  4. php 凯撒加密解密,PHP脚本实现凯撒加(解)密
  5. tensorflow-GPU加速-win10(NVIDIA GeForce 940MX)下的安装教程(VS2015+Cuda9.0)
  6. 狼人杀总结之“警下预言家 必是真预言家”
  7. 3分钟了解什么是期权—行权?
  8. Zephyr启动过程与中断响应
  9. kmeans聚类算法matlab实现
  10. 惠州市计算机网络学校有哪些,惠州市初中学校排行榜