近日出于学习的目的对某Boss网站的反爬机制进行了分析和逆向,终于完全搞定了,记录总结下方便日后学习!
本代码请仅用于 纯技术研究的 用途,请勿用于商业用途或 非法用途,如果因使用者非法使用造成的法律问题与本作者无关!
仅供学术研究,如有侵权请即时通知,文章会在第一时间内删除!

涉及技术

核心js加密文件进行了全逆向,爬取方案不需要浏览器参与,纯 python+js 即可!

本爬取方案最终通过Python实现了完全自动化爬取职位信息列表页,并存储到一个txt文件中(需要的可自行扩展数据库实现),为了简单起见未使用多线程,使用的技术有:

  • python3
  • requests
  • execjs 执行js脚本
  • re 正则表达式
  • BeautifulSoup 解析列表页面提取职位信息
  • jsbeautify.js 为增加可读性,对加密js进行格式化处理

网站正常访问流程

  1. 某Boss网站在访问页面时都需要携带一个 __zp_stoken__=xxxxxx 这样的cookie

  2. 每次访问页面都会更新这个__zp_stoken__,(另外,每次__zp_stoken__其实可以使用数次(貌似<5次),具体次数没有试验)

    • 返回的页面会携带 __zp_sseed____zp_sname____zp_snts__ 三个cookie (通过查看response 的 set-cookie部分)
    • 基于这三个cookie值计算新的__zp_stoken__存入cookie中
    • 这三个cookie值消费完后会即刻删除,所以在浏览器中一般看不到这三个cookie值
  3. 如果不携带cookie __zp_stoken__或者__zp_stoken__无效,就会返回一个302跳转

    • 302跳转Location 为 https://www.zhipin.com/web/common/security-check.html?seed=r9L%2BjsS5vloxpthkin%2F2Yskecz1G198Nk%2B4RCkA2YiA%3D&name=d05572cd&ts=1587092342543&callbackUrl=%2Fc101280600%2F%3Fquery%3Dpython%26page%3D2%26ka%3Dpage-2&srcReferer=

    • Location 中seed、name、ts为关键参数,用于计算 __zp_stoken__

    • 这个页面中的js所做的工作就是为

      • 按照name加载核心加密js文件
      • 设置cookie中的 __zp_stoken__
      • 精简后的核心js为
                  var getQueryString = function(name) {var reg = new RegExp("(^|&)" + name + "=([^&]*)(&|$)");var r = window.location.search.substr(1).match(reg);if (r != null) return unescape(r[2]);return null;};var seed = decodeURIComponent(getQueryString("seed")) || "";var ts = getQueryString("ts");var fileName = getQueryString("name");var expiredate = new Date().getTime() + 32 * 60 * 60 * 1000 * 2;var code = "";var ABC = window.ABC || frame.contentWindow.ABC;try {//code = new ABC().z(seed, parseInt(ts)+(480+new Date().getTimezoneOffset())*60*1000);code = new ABC().z(seed, parseInt(ts));//+(480+new Date().getTimezoneOffset())*60*1000 时区相对于北京的偏移} catch (e) {}if (code ) Cookie.set("__zp_stoken__", code, expiredate, COOKIE_DOMAIN, "/"); //该方法会做一次 encodeURIComponent
      

对于2或3 拿到seed、name、ts后的流程基本一样,都是调用new ABC().prototype.z(seed,ts)函数,生成 __zp_stoken__ 并做一次 encodeURIComponent 后存放到cookie中。

术语说明

  • seed 是服务端发送的一个种子,由服务端控制生成
  • name 是对应加密js的名字,这个name在每次访问时会动态变化,也及时获取的加密js不固定,由服务端控制生成,8位数字或字母的组合
  • ts 是timestamp时间戳,由服务端控制生成
  • __zp_stoken__ 通过name指定的加密js 计算出来 cookie值,由客户端基于服务器提供seed和ts来生成,每次发送请求需携带有效的 __zp_stoken__
  • 投毒 js代码中会对环境进行很多检测,如果识别为非正常浏览器,就会对某些参数进行修改,造成最终结果错误,成为投毒
  • 解毒 对代码中的投毒代码进行处理
  • zz 加密js中的一个变量,对应最终生成的 __zp_stoken__ ,是难得一见的具备可读性的变量
  • ABC 加密js中的一个对象,也是生成最终 __zp_stoken__ 的入口
  • 常量池 加密js中的第一行,就是定义了一个常量字符串数组(base64加密),其中存放的都是代码中用到字符串
  • 常量池偏移 常量池在进行字符串替换时,并不是直接按下标替换的,而是做了一个偏移(不同的js不一样)
  • 运算符函数 就是将一些简单的运算符转成了函数 如±*/等等,原始js中存在大量的运算符函数
  • 运算符函数替换 对js中的运算符函数 替代成原始 操作符,并干掉运算符函数的过程就是运算符函数替换
  • switch扁平化 原始js中很多switch case语句用来控制函数的执行流程,而判断的内容来源于某个数组,这个数组又是根据常量池中的某个常量按照|进行分割形成的,其实switch最终执行流程是固定,而按照这个数据对switch case进行函数顺序编排及替换就成为 switch扁平化

爬取方案

爬取主流程

爬取方案的思路为

  1. 访问页面获取302跳转的Location,提取seed name ts核心参数
  2. 根据name请求对应加密js文件
  3. 使用jsbeautify对加密js文件进行格式化
  4. 对加密js进行运算法替换以及解毒处理
  5. 调用js生成 __zp_stoken__
  6. 通过 __zp_stoken__ 爬取指定列表页数据
  7. 解析页数,提取职位信息追加到result.txt中
  8. 解析页面响应的头部信息,获取seed name ts
  9. 根据seed name ts 再次 从第二步开始重复

调用代码案例

# 对指定的页面进行遍历翻页,将结果写入指定文件
from XBossSpider import  bossSpider,extractJobInfo
#import XBossSpider
import importlib
importlib.reload(XBossSpider)
provider={}
path="C:/Users/jam/Desktop/temp/tempdata/"  # 需要确保jsbeautify.js在该目录下,中间过程文件、最终文件都在该目录下
for i in range(1):url="https://www.zhipin.com/c101280600/?query=python&page="+str(i)+"&ka=page-"+str(i)text=bossSpider(url,path,provider)result=extractJobInfo(text)if(not result or len(result)<10 or result.isspace()):print("请检查IP是否已被封,需进行滑块验证!")breakresultFileName=path+"result.txt"with open(resultFileName,'a',encoding='UTF-8') as f:f.write(result)

结果示例

解毒过程说明

以下说明过程都以temp.js为例,temp.js 是 对3d0a2109.js进行最简化处理后的核心代码

debugger投毒处理

在调试时会频繁出现debugger断点,这是js中进行断点投毒,其中有定时任务频繁执行,无敌循环debugger,严重影响本地调试。

需要对temp.js 中全局变量 _0x1c69[‘0x3af’-0x0]的值进行替换 (全局变量名称会根据js的不同而不同)

只需要将js中的固定字符串 YkZGNWFtTjJhWHhrWTFGU0lIQnJkR2NnZENBeUlHTjRiQ0E1ZEdsNFVWSXdJSGQ0ZFdwNmVuaG5NQ0JuZUdscVoyTWdZM2hzSURsMGFYaFJVaUJXSUhRZ015QmFXVmt3Y2xGU1VnPT0=

替换为YkZGNWFtTjJhWHhrWTFGU0lIQnJkR2NnZENBeUlHTjRiQ0E1ZEdsNFVWSXdJQ0FnSUNBZ0lDQWdNQ0JuZUdscVoyTWdZM2hzSURsMGFYaFJVaUJXSUhRZ015QmFXVmt3Y2xGU1VnPT0=

解释说明

常量池中原始字符串

_0x1c69['0x3af'-0x0]="YkZGNWFtTjJhWHhrWTFGU0lIQnJkR2NnZENBeUlHTjRiQ0E1ZEdsNFVWSXdJQ0FnSUNBZ0lDQWdNQ0JuZUdscVoyTWdZM2hzSURsMGFYaFJVaUJXSUhRZ015QmFXVmt3Y2xGU1VnPT0=";

经过一次base64接码后

_0x25ec['mdGvrp']['0x3af'-0x0]="bFF5amN2aXxkY1FSIHBrdGcgdCAyIGN4bCA5dGl4UVIwICAgICAgICAgMCBneGlqZ2MgY3hsIDl0aXhRUiBWIHQgMyBaWVkwclFSUg==";

这个比较特殊还需要再经过一次解密才能得到明文,也就是在调试时看到那个拼命无敌debugger

(function() {var a = new Date(); debugger; return new Date() - a > 100;}())

为了优雅的搞掉他,我对解密函数进行了你想,写了加密函数encry,然后将明文中的debugger替换成空格,则给base64编码得到无毒的字符串常量用于替换

btoa(btoa(encry("(function() {var a = new Date();         ; return new Date() - a > 100;}())")));//去掉debugger  注意要两次base64加密//YkZGNWFtTjJhWHhrWTFGU0lIQnJkR2NnZENBeUlHTjRiQ0E1ZEdsNFVWSXdJQ0FnSUNBZ0lDQWdNQ0JuZUdscVoyTWdZM2hzSURsMGFYaFJVaUJXSUhRZ015QmFXVmt3Y2xGU1VnPT0=

本地调试时只需进行这一步替换就能解决到debugger问题了。

域名投毒处理

temp.js的 1572行,涉及域名投毒,本地调试或执行js时获取域名是不对的,而这个域名是需要参与最终cookie计算的,所以需要处理,处理方式比较暴力简单,强制写成正确的域名即可,把其余代码注释掉。

case '4': _0x476e10 ="https://www.zhipin.com/";//_0x476e10 = ((typeof top) == ( _0x261f6f[_0x40b4('0x345')])) && ((typeof top[_0x40b4('0x199')]) == ( _0x261f6f[_0x40b4('0x345')])) && ((/\w+:\/\/(.*?)\//[_0x40b4('0x37c')](top[_0x40b4('0x199')][_0x40b4('0x8b')])) != ( null)) ? /\w+:\/\/(.*?)\//[_0x40b4('0x37c')](top[_0x40b4('0x199')][_0x40b4('0x8b')])[0x0] : _0x261f6f[_0x40b4('0x3ab')];

typeof 类的投毒处理(按调用顺序处理)

在js中会对系统环境进行多种判断,如果识别为非正常浏览就会投毒!

这些判断包括windows、document、global、title、setInterval等,为了可读性我进行了操作符函数替换后再做的如下处理(其实可以不用进行函数替换的),主要投毒位置记录如下,具体代码处理时的策略和下方标注略有差异。

74行

74行判断条件需要保证为true 或者 干掉投毒函数setInterval_ =false,ss 第9位置1

注释79-84行

        Date[ptt][gm] = function() { //投毒
修改Data.prototype.getMonth()函数固定返回12return ((((0x1) << ( 0x3))) | ( 0x4));};setInterval_ = ![];ss = ((ss) | ( ((0x1) << ( 0x8))));

以上代码全部注释掉

214 行

214行判断global process 等对象,不存在则投毒 ss 0xc+1置1

注释215行

原始代码

if (((typeof global) != ( _0x2629ad[_0x2b8b('0x173')])) || ((typeof process) != ( _0x2629ad[_0x2b8b('0x173')])) || ((typeof child_process) != ( _0x2629ad[_0x2b8b('0x173')])) || ((typeof Buffer) != ( _0x2629ad[_0x2b8b('0x173')])) || ((typeof sessionStorage) == ( _0x2629ad[_0x2b8b('0x173')]))) {//干掉或注释下面的内容ss = ((ss) | ( ((0x1) << ( 0xc))));}

解析后

    if (((typeof global) != ( _0x2629ad[_0x2b8b('0x173')])) || ((typeof process) != ( _0x2629ad[_0x2b8b('0x173')])) || ((typeof child_process) != ( _0x2629ad[_0x2b8b('0x173')])) || ((typeof Buffer) != ( _0x2629ad[_0x2b8b('0x173')])) || ((typeof sessionStorage) == ( _0x2629ad[_0x2b8b('0x173')]))) {ss = ((ss) | ( ((0x1) << ( 0xc))));}

284-287行

284-287注释掉 ss = ss | 31;//1-5位置1

  1. 284行判断浏览器类型 确保执行 ss = ss | (0x1 << 0x1) 倒数第2位置1,否则0xf+1位投毒置1

    原始代码

    ((typeof window) == ( _0x2c63cc[_0x2b8b('0x395')])) && ((typeof window[_0x2b8b('0xf4')]) == ( _0x2c63cc[_0x2b8b('0x395')])) ? ((typeof window[_0x2b8b('0xf4')][_0x2b8b('0xac')]) == ( _0x2c63cc[_0x2b8b('0x11c')])) ? /phantomjs/[_0x2b8b('0x32d')](window[_0x2b8b('0xf4')][_0x2b8b('0xac')][_0x2b8b('0x407')]()) ? ss = ((ss) | ( ((0x1) << ( 0xf)))) : window[_0x2b8b('0xf4')][_0x2b8b('0x1a8')] ? ss = ((ss) | ( ((0x1) << ( 0xf)))) : ss = ((ss) | ( ((0x1) << ( 0x1)))) : ((typeof window[_0x2b8b('0xf4')][_0x2b8b('0x8')]) == ( _0x2c63cc[_0x2b8b('0x116')])) ? ss = ((ss) | ( ((0x1) << ( 0xf)))) : !window[_0x2b8b('0xf4')][_0x2b8b('0x8')] ? ss = ((ss) | ( ((0x1) << ( 0xf)))) : ss = ((ss) | ( ((0x1) << ( 0xf)))) : ss = ((ss) | ( ((0x1) << ( 0xf))));
    

    解析后代码

    ((typeof window) == ( "object")) && ((typeof window["navigator"]) == ( "object")) ? ((typeof window["navigator"]["userAgent"]) == ( "string")) ? /phantomjs/["test"](window["navigator"]["userAgent"]["toLowerCase"]()) ? ss = ((ss) | ( ((0x1) << ( 0xf)))) : window["navigator"]["webdriver"] ? ss = ((ss) | ( ((0x1) << ( 0xf)))) : ss = ((ss) | ( ((0x1) << ( 0x1)))) :((typeof window["navigator"]["appVersion"]) == ( "undefined")) ? ss = ((ss) | ( ((0x1) << ( 0xf)))) : !window["navigator"]["appVersion"] ? ss = ((ss) | ( ((0x1) << ( 0xf)))) : ss = ((ss) | ( ((0x1) << ( 0xf)))) : ss = ((ss) | ( ((0x1) << ( 0xf))));
    
  2. 285行判断屏幕 确保执行 ss = ((ss) | ( ((0x1) << ( 0x2)))) 第3位置1,否则0x10+1位投毒置1

    原始代码

    ((typeof window) == ( _0x2c63cc[_0x2b8b('0x395')])) && ((typeof window[_0x2b8b('0x30c')]) == ( _0x2c63cc[_0x2b8b('0x395')])) ? ((((window[_0x2b8b('0x30c')][_0x2b8b('0x426')]) + ( window[_0x2b8b('0x30c')][_0x2b8b('0x124')]))) > ( 0x0)) ? ss = ((ss) | ( ((0x1) << ( 0x2)))) : ss = ((ss) | ( ((0x1) << ( 0x10)))) : ss = ((ss) | ( ((0x1) << ( 0x10))));
    

    解析后代码

    ((typeof window) == ( "object")) && ((typeof window["screen"]) == ( "object")) ? ((((window["screen"]["availHeight"]) + ( window["screen"]["availWidth"]))) > ( 0x0)) ?ss = ((ss) | ( ((0x1) << ( 0x2)))) : ss = ((ss) | ( ((0x1) << ( 0x10)))): ss = ((ss) | ( ((0x1) << ( 0x10))));
    
  3. 286行判断getElementById 确保执行 ss = ((ss) | ( ((0x1) << ( 0x3)))) 第4位置1,否则0x11+1位投毒置1

    原始代码

    ((typeof document) == ( _0x2c63cc[_0x2b8b('0x395')])) && ((typeof document[_0x2b8b('0x3dd')]) == ( fff)) ? !document[_0x2b8b('0x3dd')](_0x2c63cc[_0x2b8b('0x367')]) ? ss = ((ss) | ( ((0x1) << ( 0x3)))) : ss = ((ss) | ( ((0x1) << ( 0x11)))) : ss = ((ss) | ( ((0x1) << ( 0x11))));
    

    解析后代码

    ((typeof document) == ( "object")) && ((typeof document["getElementById"]) == ( fff)) ? !document["getElementById"]("glcanvaxs") ? ss = ((ss) | ( ((0x1) << ( 0x3)))) : ss = ((ss) | ( ((0x1) << ( 0x11)))): ss = ((ss) | ( ((0x1) << ( 0x11))));
    
  4. 287行判断phantom 确保执行ss = ((ss) | ( ((0x1) << ( 0x4)))) 第5位置1,否则0x12+1位投毒置1

    原始代码

     ((typeof window) == ( _0x2c63cc[_0x2b8b('0x395')])) ? ((typeof window[_0x2b8b('0x55')]) == ( _0x2c63cc[_0x2b8b('0x116')])) ? ss = ((ss) | ( ((0x1) << ( 0x4)))) : ss = ((ss) | ( ((0x1) << ( 0x12)))) : ((typeof window) == ( _0x2c63cc[_0x2b8b('0x395')])) && ((typeof window[_0x2b8b('0x34b')]) == ( _0x2c63cc[_0x2b8b('0x116')])) ? ss = ((ss) | ( ((0x1) << ( 0x12)))) : ss = ((ss) | ( ((0x1) << ( 0x12))));
    

    解析后代码

    ((typeof window) == ( "object")) ? ((typeof window["callPhantom"]) == ( "undefined")) ? ss = ((ss) | ( ((0x1) << ( 0x4)))) : ss = ((ss) | ( ((0x1) << ( 0x12)))) : ((typeof window) == ( "object")) && ((typeof window["_phantom"]) == ( "undefined")) ? ss = ((ss) | ( ((0x1) << ( 0x12)))) : ss = ((ss) | ( ((0x1) << ( 0x12))));
    

206 行

  1. 判断window对象 是this 确保执行ss = ((ss) | ( 0x1)) 第1位置1,否则0xb+1位投毒置1,并debugger随机生成字符串
    注意这段代码在定时器中,会定时触发执行

206 207注释掉,前面插入 ss = ss|0x1;

原始代码

        ((typeof window) != ( _0x1e3f0e[_0x2b8b('0x241')])) && ((this) == ( window)) ? ss = ((ss) | ( 0x1)) : (ss = ((ss) | ( ((0x1) << ( 0xb)))),_0x327c14 = _0x2ce1dc());

解析后代码

((typeof window) != "undefined") && ((this) == ( window)) ?ss = ((ss) | ( 0x1)) : (ss = ((ss) | ( ((0x1) << ( 0xb)))),_0x327c14 = _0x2ce1dc());

297-300 275行

297 298 300 275行代码判断横屏竖屏及调试 outer-inner如果<=160 为false ,否则为true window不存在也是true 好像没啥影响
定时触发

297-300行

为避免麻烦,两个都确保为true,进入300行if判断的else分支 var _0x5c72b8 =true;//
var _0x6c7431 =true;//

if分支会将ss的0x13+1位置1 100010000000000000011111

var _0x5c72b8 = ((typeof window) == ( _0x5ecff7[_0x2b8b('0x1e9')])) ? ((((window[_0x2b8b('0x392')]) - ( window[_0x2b8b('0x1cb')]))) > ( _0x59c9ca)) : ![];
var _0x6c7431 = ((typeof window) == ( _0x5ecff7[_0x2b8b('0x1e9')])) ? ((((window[_0x2b8b('0x306')]) - ( window[_0x2b8b('0x19e')]))) > ( _0x59c9ca)) : ![];
var _0x4f3ce8 = _0x5c72b8 ? _0x5ecff7[_0x2b8b('0x21f')] : _0x5ecff7[_0x2b8b('0x21d')]; //width差值大于160为vertical,否则horizontal
if (!((_0x6c7431) && ( _0x5c72b8)) && (((typeof window) == ( _0x5ecff7[_0x2b8b('0x1e9')])) && ((typeof window[_0x2b8b('0x157')]) == ( _0x5ecff7[_0x2b8b('0x1e9')])) && ((typeof window[_0x2b8b('0x157')][_0x2b8b('0x2c8')]) == ( _0x5ecff7[_0x2b8b('0x1e9')])) && window[_0x2b8b('0x157')][_0x2b8b('0x2c8')][_0x2b8b('0x1dd')] || _0x5c72b8 || _0x6c7431))

解析后为

var _0x5c72b8 = ((typeof window) == ( "object")) ? ((((window["outerWidth"]) - ( window['innerWidth'))) > ( _0x59c9ca)) : ![];
var _0x6c7431 = ((typeof window) == ( "object")) ? ((((window["outerHeight"]) - ( window['innerHeight']))) > ( _0x59c9ca)) : ![];  if (! var _0x4f3ce8 = _0x5c72b8 ? _0x5ecff7[_0x2b8b('0x21f')] : _0x5ecff7[_0x2b8b('0x21d')]; //width差值大于160为vertical,否则horizontal
if (!((_0x6c7431) && ( _0x5c72b8))&& (((typeof window) == ("object")) && ((typeof window["Firebug"]) == ("object")) && ((typeof window["Firebug"]["chrome"]) == ("object")) && window["Firebug"]["chrome"]["isInitialized"] || _0x5c72b8 || _0x6c7431))

275行

如果是调试状态会调用事件发布,执行275处的相关window判断, 确保执行 0x1) << ( 0xd)

((typeof window) != ( _0x5b9200[_0x2b8b('0x361')])) && ((typeof window[_0x2b8b('0x327')]) == ( fff)) && ((typeof CustomEvent) == ( fff)) ? window[_0x2b8b('0x327')](new CustomEvent(_0x5b9200[_0x2b8b('0xe0')],_0x4fa1b3)) : ss = ((ss) | ( ((0x1) << ( 0xd))));

解析后

((typeof window) != "undefined") && ((typeof window["dispatchEvent"]) == ("function")) && ((typeof CustomEvent) == ( "function")) ?window["dispatchEvent"](new CustomEvent("bcr_change",_0x4fa1b3)) : ss = ((ss) | ( ((0x1) << ( 0xd))));

调用new ABC().z()方法触发的投毒

接下来的方法都是调用main()之后触发

349行

349行 给ts,seed赋值 确保三元运算符为false,或者截取: 前的代码

(_0x327c14 = _0x33b55a,_0x46dced = _0x3220f9); 其他注释掉

((typeof document) == ( _0x15044d[_0x2b8b('0x1f5')])) && ((typeof document[_0x2b8b('0x1b3')]) != ( _0x15044d[_0x2b8b('0x1fc')])) ? _0x327c14 = _0x2ce1dc() : (_0x327c14 = _0x33b55a,_0x46dced = _0x3220f9);

解析后为

((typeof document) == "object") && ((typeof document["title"]) != ( "string")) ?_0x327c14 = _0x2ce1dc() : //生成一个随机字符串,44位,最后一位为=,下毒(_0x327c14 = _0x33b55a, _0x46dced = _0x3220f9);//第一个赋值seed,第二个赋值ts

1739行

1739行 判断moveBy 确保执行((ss) | ( ((0x1) << ( 0x5)))) 第6位置1,否则0x14+1位投毒置1,并debugger随机生成字符串

ss = ((ss) | ( ((0x1) << ( 0x5)))); 其余注释掉

((typeof window) == ( _0x578d43[_0x2b8b('0x3f3')])) && /function|object/[_0x2b8b('0x32d')](typeof window[_0x2b8b('0x152')]) ? ss = ((ss) | ( ((0x1) << ( 0x5)))) : (ss = ((ss) | ( ((0x1) << ( 0x14)))),_0x327c14 = _0x2ce1dc());

解析后为

((typeof window) == "object") && /function|object/["test"](typeof window["moveBy"]) ? ss = ((ss) | ( ((0x1) << ( 0x5)))) : (ss = ((ss) | ( ((0x1) << ( 0x14)))),_0x327c14 = _0x2ce1dc());

1407行

1407行 判断window.open是函数 确保执行 ss| (0x1<< 0x6) 第7位置1,否则0x15+1投毒置1,并将seed置为随机字符串

ss=ss| (0x1<< 0x6); 其余注释掉 两行
下面的特殊字符影响markdown显示 xxxx 删掉即可

!!(((typeof window) == ( _0x578d43[_0x2b8b('0x3f3')])) && (((window[_0x2b8b('0x412')]) + ( ''))[_0x2b8b('0x70')]()[_0x2b8b('0x386')](/function\s*([^(]*)\xxxx(/)!=null)) ? ss = ((ss) | ( ((0x1) << ( 0x6)))) : (_0x327c14 = _0x2ce1dc(),ss = ((ss) | ( ((0x1) << ( 0x15)))));

解析后为

!!((typeof window == "object") && ((window["open"]+ '')["toString"]()["match"](/function\s*([^(]*)\xxxx(/)!=null)) ? ss = (ss| ( (0x1<< 0x6))): (_0x327c14 = _0x2ce1dc(),ss = (ss| ( 0x1 << 0x15)));

1699行

1699行 判断document.createElement可用 确保执行ss = ((ss) | ( ((0x1) << ( 0x7)))) 第8位置1,否则0x17投毒置1

ss = ((ss) | ( ((0x1) << ( 0x7)))) ; 注释掉其余的

((typeof document) == ( _0x578d43[_0x2b8b('0x3f3')])) && ((typeof document[_0x2b8b('0x391')]) == ( fff)) && ((typeof (caption = document[_0x2b8b('0x391')](_0x578d43[_0x2b8b('0x2e8')]))) == ( _0x578d43[_0x2b8b('0x3f3')])) && ((caption[_0x2b8b('0x24f')]) == ( _0x578d43[_0x2b8b('0x302')])) ? ss = ((ss) | ( ((0x1) << ( 0x7)))) : ss = ((ss) | ( ((0x1) << ( 0x16))));

解析后为

((typeof document) == ("object")) && ((typeof document["createElement"]) == ( fff)) && ((typeof (caption = document["createElement"]("caption"))) == ( "object")) && ((caption["tagName"]) == ( "CAPTION")) ? ss = ((ss) | ( ((0x1) << ( 0x7)))) : ss = ((ss) | ( ((0x1) << ( 0x16))));

1543行

1543行 判断window[“moveTo”] 确保执行 ss = ((ss) | ( ((0x1) << ( 0x0)))),第0位置1,否则投毒0xe+1置1

ss = ((ss) | ( ((0x1) << ( 0x0))))

            !!(((typeof window) == ( _0x578d43[_0x2b8b('0x3f3')])) && window[_0x2b8b('0x137')]) ? ss = ((ss) | ( ((0x1) << ( 0x0)))) : (_0x327c14 = _0x2ce1dc(),ss = ((ss) | ( ((0x1) << ( 0xe)))));

解析后为

!!(((typeof window) == "object") && window["moveTo"]) ? ss = ((ss) | ( ((0x1) << ( 0x0)))) : (_0x327c14 = _0x2ce1dc(), ss = ((ss) | ( ((0x1) << ( 0xe)))));

88行

88行判断setInterval需要处理,否则官方定义会投毒 Date.getMonth

强制进入if分支,定义setIntervalnew为空函数

if(true){//if (typeof setInterval == _0x2b8b('0x2ed') && setInterval[_0x2b8b('0x70')]()[_0x2b8b('0x1db')](/\s+/g, '') == _0x2b8b('0x2d3') || typeof setInterval == _0x2b8b('0x28')) {//setInterval未被替换setIntervalnew=function(a,b){};//setIntervalnew = setInterval;
}

20行

第20行有一处 window 不用处理
处理windows.atob()函数,如果系统不存在该函数 官方代码自定义了算法,所以无需处理

到这里投毒类就都处理完成了

js核心流程说明

通过逆向,发现js的核心流程就是一个AES加密算法。

加密模式ECB,填充方式pkcs5padding,数据块128位,密码4e227197bf508bab,偏移量4e227197bf508bab,输出base64,字符集gb2312

代码核心流程

  1. 生成秘钥

    No. 1.1 将 zz5IntArray_0x4c34d0 的前17位赋值,初始化后对应字符串 ‘4e227197bf508bab’ 第17位对应整数0,对应原始代码5890行左右,关键字[0xf],下断点,即可得到秘钥

  2. 生成要加密的原文

    No. 1.2 plainText_0x5bd912 为seed+’@’+“https://www.zhipin.com/@1587351053@8388833”+’@9a04’转成的整型数组追加 4个4 和 1个0 凑够97位
    “hQGTnOz8GDIwnLC+cm6m7eUC65EOVoF3GtqnngpvfN8=”+’@’+“https://www.zhipin.com/@1587351053@8388833”+’@9a04’

  3. 生成每次轮函数要是用的轮密钥

    No. 1.3 调用函数根据 zz5IntArray_0x4c34d0 生成复杂对象 complex2Array_0x1a6b6f 包含二维数组
    complex2Array_0x1a6b6f 中a开头的属性为数组结构,i开头的元素为整数

  4. 将明文分组为6组,每组128位,循环对每一组进行AES加密

    No. 1.4 循环调用函数生成 zz97IntArray_0x14daee, 值来源于plainText_0x5bd912每次取16个进行处理,循环6次,complex2Array_0x1a6b6f 也参与计算

    • 1.4.1 调用核心代码encrypted16Reel_0x5de6e9 加密

      • No. 1.4.1.1 首次轮秘钥加,每次计算4个元素组成一个32位数
      • No. 1.4.1.2 轮函数 循环10次处理a2中的数组
  5. 最后一轮的加密结果进行扩展生成128位密文整数数组

    No. 1.5 调用函数生成 zz5IntArray_0x4c34d0,值来源于 zz97IntArray_0x14daee 97位数组用于扩展生成128位zz整数数组 3变4

  6. 将密文按照ASCII码转成字符,并增加四个字符的前缀,也就最终cookie前身(再做一次encodeURIComponent就是 __zp_stoken__了)

    No. 1.6 生成zz也就是token值 前四位固定,后面由zz5IntArray_0x4c34d0按照ASCII码转变而来

    前四位获取位置,原始代码约789行 关键词zz = zz = _0x1ddb83[_0x2241(‘0x2d0’)];; 756行_0x5c82f4[_0x2241(‘0x2d0’)] = _0x2241(‘0xf’);

扩展思路

其实完全可以通过 js 获取固定的秘钥 和 固定的四字符前缀(js不同 秘钥、前缀也不同),然后在Python中使用标准AES算法直接计算__zp_stoken__值。有兴趣的同学可去实现!

通过官方js解析出秘钥和前缀 秘钥关键词[0xf] 大部分是常量赋值,但有一部分是通过date计算,前缀关键词zz = 通过一次函数替换由常量池获取,注意常量池有偏移量

自己通过AES加密获取__zp_stoken__
明文 seed+’@’+“https://www.zhipin.com/@+ts/1000+@8388833”+@+四位前缀
token=encodeURICompent(四位前缀+生成的密文)

几个变量说明

  • _0x14daee 97位数组用于扩展生成128位zz整数数组 3变4
  • complex2Array.a7 .a8 存放原始秘钥
  • .a9 临时存放
  • .a2 轮秘钥 a2[0]存放原始秘钥 4个拼成一个
  • .a3 逆序轮秘钥 a3[10]存放原始秘钥 4个拼成一个

关于算法的几点疑问

在逆向中存在以下几点疑问,知道的同学还望不吝赐教,我感激不尽!

  • 标准AES算法中在进行字节代换时使用的是一个S盒,通过8位二进制的高、低四位形成行、列坐标,然后在S盒中获取替代值,只有一个S盒而且S盒中的值都是小于<256的,但在temp.js中存在四个S盒,而且S盒中存放的是32位数(有正有负数),为什么会有四个S盒?

  • 在标准AES算法中在进行列混淆时,是通过一个常量矩阵相乘进行混淆的,而在temp.js中没看到常量矩阵的影子或者它使用的是全1的常量矩阵,这与标准的AES算法也对应不上,不知道这个常量矩阵和上面的四个S盒做了何种融合?(因为最终的计算结果和标准AES加密一致)

  • 根据加密的调用次数不同,最终生成的__zp_stoken__也不完全相同,但都可以使用

    • 经过观察第一次调用生成是唯一
    • 连着调用第二次另外生成一个__zp_stoken__值,后续调用基本都是这个 __zp_stoken__
    • 偶尔会出现第三个__zp_stoken__
    • 这三种情况产生的__zp_stoken__都可以正常使用

相关代码文件说明

  • analysis 分析的过程文件目录

    • test.html 进行本地调试使用的页面
    • temp.js 对3d0a2109.js进行最简化处理后的核心代码,进行了详细标注
    • 3d0a2109.js 经过chrome格式化后的原始js,以这个js为案例代码进行逆向分析处理,python涉及行数的都是以这个原始js为蓝本为基础的
    • temp-3d0a2109.js temp-3d0a2109-v2.js temp-3d0a2109-v3.js 逆向分析的中间过程文件
  • jsbeautify.js python运行时需要调用的js,用于js代码格式化
  • XBossSpider.py 最终python代码
  • xxxxxxxx.js 运行时抓取的原始js文件
  • xxxxxxxx-step1.js 对原始js进行格式化处理后的js
  • xxxxxxxx-step2.js 对原始js进行运算符函数替换后的js
  • xxxxxxxx-step3.js 进行解毒处理后的js,也是最终python要执行的js文件
  • result.txt 抓取后提取的职位信息,每行一个职位,每行职位的字段用 tab 分隔

某Boss招聘网站的反反爬机制详解相关推荐

  1. python中如何反解函数_PyTorch中反卷积的用法详解

    pytorch中的 2D 卷积层 和 2D 反卷积层 函数分别如下: class torch.nn.Conv2d(in_channels, out_channels, kernel_size, str ...

  2. 大型网站架构系列:负载均衡详解(4)

    原文:大型网站架构系列:负载均衡详解(4) 本文是负载均衡详解的第四篇,主要介绍了LVS的三种请求转发模式和八种负载均衡算法,以及Haproxy的特点和负载均衡算法.具体参考文章,详见最后的链接. 三 ...

  3. DedeCMS织梦网站目录创建及后台基本操作详解

    DedeCMS织梦网站是比较流行的自助建站的一种方式,开放性使其具有很大的优势,也成为很多中小型企业及个人站长节省成本的选择.前面小编已经为大家分享了<新手搭建DEDE织梦网站的详细操作流程&g ...

  4. php 数组 打乱顺序,PHP数组随机乱序和反序的实例详解

    PHP数组随机乱序和反序 在前两篇文章<如何对PHP数组进行排序>和<PHP数组的倒序>中介绍了两组函数,一组升序,一组倒序(降序),今天我们这篇文章跟大家介绍数组的随机乱序和 ...

  5. apache 更改默认网站目录 及 CentOS Apache配置详解

    apache 更改默认网站目录: 1:我们测试把默认网站目录改到root家目录下 新建/root/website目录 #mkdir -p /root/website #echo "websi ...

  6. 通过CrawlSpider对招聘网站进行整站爬取(拉勾网实战)

    爬虫首先要明确自己要爬取的网站以及内容 进入拉勾网的网站 然后看看想要爬取什么内容 职位,薪资,城市,经验要求 学历要求,全职或者兼职 职位诱惑,职位描述 提取公司的名称 以及 在拉勾网的url等等 ...

  7. Java反编译工具Jad详解

    Jad(JAva Decompiler)是一个Java的反编译器,可以通过命令行把Java的class文件反编译成源代码. 如果你在使用编写代码的时候遇到找不到源代码的第三方库,而且你又需要看看这个库 ...

  8. shell-单引号 ,双引号,反引号,括号详解

    一.单引号和双引号 首先,单引号和双引号,都是为了解决中间有空格的问题. 因为空格在linux中时作为一个很典型的分隔符,比如string1=this is astring,这样执行就会报错.为了避免 ...

  9. php 转义字符处理,PHP转义与反转义字符串函数详解

    在PHP语言中,字符串的转义与反转义是可以使用PHP提供的自有函数addslashes()函数和stripslashes()函数来实现. 1. addslashes()函数 addslashes() ...

最新文章

  1. Windows活动目录系列---活动目录版本迁移概述
  2. logo qt添加_linux下如何给qt程序添加图标?
  3. eureka的自我保护
  4. sealed、new、virtual、abstract与override 趣解
  5. 浅谈malloc,calloc,realloc函数之间的区别
  6. WPF:仿WIN7窗体打开关闭效果
  7. 【nyoj 47】 过河问题(思维)
  8. Navicat Premium 实用快捷键
  9. php数组循环转为对象,php中循环实现(字符串,对象,或者数组)编码相互转换
  10. C++中传递数组参数
  11. 004. Asp.Net Routing与MVC 之二: 请求如何激活Controller和Action
  12. 科技文献检索课题 计算机,科技文献检索课题.doc
  13. AD2016 交互式网表 InteractiveHtmlBomForAD插件安装教程
  14. 旁路电容和去偶电容Bypass and Decouple
  15. 台式机通过网线共享笔记本电脑无线网络
  16. Airtest自动化测试——批量执行脚本(实测)
  17. Android scheme链接打开本地应用
  18. 机器学习笔记 --- 数学符号以及读法
  19. 下载文件时,文件名乱码。
  20. 使用Guardium和QRadar检测数据库漏洞

热门文章

  1. html 加载pdf文件内容不显示不出来,pdf.js首次加载pdf文件时找不到pdf文件,刷新后才能出现pdf文件...
  2. Maven工程Missing artifact 解决方法
  3. 软考系统架构师-计算机组成和体系结构
  4. 别以为有文化就了不起
  5. Doris(一)-简介、架构、编译、安装和数据表的基本使用
  6. linux汇编 lea,汇编指令LEA
  7. 计算区间素数和,杨老师正在上《离散数学》课程的“数论”内容,讲授素数的知识。素数又称为质数。一个大于1的整数p是素数,当且仅当p只能被1和自身整除。很显然,2是最小的素数。他想设计一个程序
  8. Mysql导入数据报错[SQL] Query main start [ERR] 1146 - Table ‘xxx.xxx_view‘ doesn‘t exist
  9. u3d5第一人称射击游戏(C#脚本)完整版并在iOS9.3系统上真机运行
  10. 【C语言】BC64牛牛的快递(DAY 5)