生意参谋是淘宝商家分析市场行情最常见的工具之一.淘宝为了防爬虫可谓下了不少功夫.
本次为了写一款抓取生意参谋数据的爬虫,真是费了不少很大的劲才破解里面的数据加密.

1. 登录

首先爬虫肯定是自动化抓取,所以登录自然是要自动登录,但是生意参谋的登录跟淘宝的是一模一样的,当你用selenium打开登录的时候就会被淘宝后端验证出来是个机器人。所以登录的话可以采用编译后的chromedriver来驱动chrome,或者使用mitmproxy用中间人的方式拦截服务器发送来的js,修改js里面函数的检测selenium的特征值的方式来登录.

2. transit-id加密

获得登录后的cookie后,如果想发送请求获得还必须在请求头里添加一个transit-id才可以获得响应内容.
如下图:
不过这个笔者目前少量测试,写死一个也能获得响应内容.
如果在浏览器进行debug,会发现这个值是每当前端请求数据的时候,对一个固定字符串做了RSA加密来得到的.所以可以在爬虫里写一个同样的方法获得transit-id.

3. data加密

原以为经过以上两步可以顺利获得结果了,事实证明还是太天真了.查看结果发现的到的是这样的一堆数据:
原来生意参谋后台响应的数据由经过AES加密的,前端展示的是解密后的.
所以,要想获得真正的数据,还需要对数据做AES解密才可以.

运行结果

展示运行结果


可关注个人公众号,不定时分享一些爬虫案例和技巧

爬虫--淘宝登录及生意参谋transit-id和data破解相关推荐

  1. python爬虫淘宝登录_python爬虫实现模拟淘宝登录

    就算所有人都不支持你.这条路会很曲折,你也会一度认为是不是自己选错了,但只要坚持,就算最后没有成功,但努力了就不会有遗憾. python爬虫模拟淘宝登录 小贴士 这个爬虫和搜索引擎的爬虫是有区别的.搜 ...

  2. python爬虫淘宝登录_淘宝的模拟登录(python3+selenium)

    淘宝登录 爬数据的前提是要先登录,那么先来说怎么使用python3+selenium登录淘宝的. 一.登录前的准备工作 关于一开始做登录时,一直会出现滑块,这个滑块怎么滑都通过不了,后来才知道是淘宝有 ...

  3. python3爬虫学习笔记之模拟淘宝登录

    准备工作 使用chrome f12调试模式,抓包查看淘宝登录的整个流程,并查看post请求的数据 值得注意的是,淘宝用的是gbk编码 说明 此版本没有处理验证码,只是单纯的登录 具体的流程和实现都在代 ...

  4. selenium成功绕过淘宝登录反爬机制!

    userAgent 信息与正常模式不一致 Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Hea ...

  5. 零基础带你用python模拟淘宝登录

    经过一段时间的学习,并参考各路大神的文章,总结出一些比较适合小白的网络爬虫的小技巧.跟着笔者的思路,循序渐进,可以慢慢找到一点小感觉. 开发环境 笔者选用的是vs code,轻量级,支持各种插件安装. ...

  6. 关于淘宝登录的四种解决方案

    淘宝登录是爬虫的一个老大难的问题,因为淘宝有那么一群人专门针对爬虫客们下足了功夫,无论你是selenium模拟点击登录,还是利用cookies登录,都会被识别出来,验证码验证始终通过不了,其后台可能采 ...

  7. JS安全防护算法与逆向分析——淘宝登录JS加密算法

    淘宝登录JS加密算法 <反爬虫AST原理与还原混淆实战>书稿内容 声明:本教程从安全角度出发讲解,只为增加读者的安全知识,提升读者数据安全意识,以及对于病毒和钓鱼网站的防护能力.绝无其他任 ...

  8. 突破淘宝登录滑块验证反爬,防止识别为Chrome自动控制

    文章首发于慕课网手记,已同步到个人博客:https://www.donlex.cn 上次的文章<在爬100万数据的时候,我发现了爬虫的进阶之路> ,有"怂恿"大家伙去突 ...

  9. 最新突破“淘宝”登录接口方法,隐藏selenium,攻克滑块验证码

    今日因为工作需要,需要抓取淘宝上一些商品详情信息,而商品详情信息必须要在登陆以后才能进行访问,所以想要抓取商品信息,模拟登陆是第一个必须要解决的问题. 淘宝的模拟登陆说难也不难,说不难,也蛮多坑的.今 ...

最新文章

  1. 2020 蚂蚁面试指南!
  2. php soap传值,在SOAP调用中传递PHP数组
  3. php文件上传到虚拟主机,php源码上传到虚拟主机(php源码上传到服务器)
  4. MySQL 数据库 like 语句通配符模糊查询小结
  5. python四级中考有用的_一位中考生家长的后悔药:考前30多天,千万别做这7件傻事...
  6. 计算机未来的发展趋势三百字,数字媒体毕业论文5000字_大专毕业论文5000字_计算机类毕业论文5000字文库...
  7. 《PHP精粹:编写高效PHP代码》——2.7节设计数据库
  8. jmeter-01 JMeter HTTP测试的各元件功能演示示例
  9. 从计算机复试看中国教育——一个面试官的经历
  10. python DEA: 非径向距离函数(non-radial directional distance function)
  11. 课课通指针练习之排除异常基因
  12. 参心坐标系与地心坐标系
  13. scala 的上界下界
  14. Python项目:外星人入侵(汇总)
  15. 三子棋?玩我自己的!
  16. JAVA基础(完结版)
  17. 微信红包业务,为什么采用轮询算法?
  18. DTO DAO VO BO PO POJO区别
  19. java新手案例_java初学者都要掌握的案例
  20. tp5 日期范围查询_tp5(thinkPHP5框架)时间查询操作实例分析

热门文章

  1. C# 类型基础(摘抄)
  2. Pelco_D-P协议
  3. 将base64格式的图片画到canvas上(js和vue两种)
  4. 大突破!人类有望饿死癌细胞
  5. 形状类族的中的纯虚函数
  6. Flutter 2.2 现已发布!
  7. 联想安装Linux系统
  8. jfinal java_jfinal 项目启动不了
  9. python choice金融终端_django choice字段模板展示
  10. Typora+PicGo图床配置以及PicGo上传失败的解决办法