1.JS混淆加密

我们之前爬取有道翻译的翻译内容时,我们通过fiddler抓取url地址时,我们发现如果我们直接将相关参数传入,会报错。只是因为,某些参数是变化的。因此,我们需要解读JS文件,取得相关参数的生成算法,利用python生成参数,再传入。

我们继续以有道翻译为例讲解如何获取相关参数的生成算法,并利用python生成参数。

首先,我们使用fiddler抓取翻译所需要的全部参数,

data = {"i": keyword,  # 翻译内容"from": "AUTO",  # 源语言,固定值"to": "AUTO",  # 目标语言,固定值"smartresult": "dict",  # 智能结果,固定值"client": "fanyideskweb",  # 客户端,固定值"salt": res['salt'],  # 加密用的盐,这个值变化"sign": res['sign'],  # 签名字符串,这个值变化"ts": res['ts'],  # 毫秒时间戳,这个值变化"bv": res['bv'],  # 未知值,这个值变化"doctype": "json",  # 文档类型,固定值"version": "2.1",  # 版本,固定值"keyfrom": "fanyi.web",  # 键的来源,固定值"action": "FY_BY_CLICKBUTTION",  # 操作动作,固定值
}

通过分析参数我们发现需要获取salt、sign、ts和bv参数的算法。

我们进入有道翻译页面,右键“检查”-“网络”找到所有的js文件,依次进入并搜索salt、sign。

经过搜索,我们发现fanyi.js文件中有salt和sign,将fanyi.js下载并格式化。在格式化后的js文件中搜索salt,我们可以找到这样一个函数,

function (e, t) {var n = e("./jquery-1.7");  // e为要翻译的内容e("./utils");e("./md5");var r = function (e) {var t = n.md5(navigator.appVersion),  // t参数为经过md5加密后的浏览器版本r = "" + (new Date).getTime(),  // r参数为时间戳i = r + parseInt(10 * Math.random(), 10);  // i参数为时间戳加0-10之间随机整数return {ts: r,  // ts参数为rbv: t,  // bv参数为tsalt: i,  // salt参数为i// sign参数为md5加密sign: n.md5("fanyideskweb" + e + i + "mmbP%A-r6U3Nw(n]BjuEU")}};t.recordUpdate = function (e) {var t = e.i,i = r(t);n.ajax({type: "POST",contentType: "application/x-www-form-urlencoded; charset=UTF-8",url: "/bettertranslation",data: {i: e.i,client: "fanyideskweb",salt: i.salt,sign: i.sign,ts: i.ts,bv: i.bv,tgt: e.tgt,modifiedTgt: e.modifiedTgt,from: e.from,to: e.to},success: function (e) {},error: function (e) {}})},

经过分析js代码,我们可以获取salt、sign、ts和bv参数的算法。我们下面使用python生成这些参数,

import hashlib
import time
import randomdef handlerSignSalt(e):navigator_appVersion = "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/83.0.4103.116 Safari/537.36 Edg/83.0.478.56"t = hashlib.md5(navigator_appVersion.encode('utf-8')).hexdigest()r = str(int(time.time() * 1000))  # 当前毫秒的时间戳i = r + str(random.randint(1, 10))  # 盐值return {'ts': r,'bv': t,'salt': i,'sign': hashlib.md5(str("fanyideskweb" + e + i + "mmbP%A-r6U3Nw(n]BjuEU").encode('utf-8')).hexdigest(),}

这样,我们就获取到了所有的参数,下面对有道翻译进行爬取,完整代码如下,

import requests
import hashlib
import time
import random# e为要翻译的内容
def handlerSignSalt(e):navigator_appVersion = "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/83.0.4103.116 Safari/537.36 Edg/83.0.478.56"t = hashlib.md5(navigator_appVersion.encode('utf-8')).hexdigest()r = str(int(time.time() * 1000))  # 当前毫秒的时间戳i = r + str(random.randint(1, 10))  # 盐值return {'ts': r,'bv': t,'salt': i,'sign': hashlib.md5(str("fanyideskweb" + e + i + "mmbP%A-r6U3Nw(n]BjuEU").encode('utf-8')).hexdigest(),}headers = {"User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/83.0.4103.116 Safari/537.36 Edg/83.0.478.56","Referer": "http://fanyi.youdao.com/",  # 来源是否正确"Cookie": "OUTFOX_SEARCH_USER_ID=-411992782@10.108.160.17; JSESSIONID=aaai8_KoEvdXw_a3gTCnx; OUTFOX_SEARCH_USER_ID_NCOO=678424169.4655154; ___rl__test__cookies=1594990510295",
}url = "http://fanyi.youdao.com/translate_o?smartresult=dict&smartresult=rule"keyword = input("请输入要查询的单词:")res = handlerSignSalt(keyword)data = {"i": keyword,  # 翻译内容"from": "AUTO",  # 源语言"to": "AUTO",  # 目标语言"smartresult": "dict",  # 智能结果,固定值"client": "fanyideskweb",  # 客户端,固定值"salt": res['salt'],  # 加密用的盐,这个值变化"sign": res['sign'],  # 签名字符串,这个值变化"ts": res['ts'],  # 毫秒时间戳,这个值变化"bv": res['bv'],  # 未知值,这个值变化"doctype": "json",  # 文档类型"version": "2.1",  # 版本,固定值"keyfrom": "fanyi.web",  # 键的来源,固定值"action": "FY_BY_CLICKBUTTION",  # 操作动作,固定值
}response = requests.post(url, data=data, headers=headers)dic = response.json()
print(dic['translateResult'][0][0]['tgt'])

2.字体反爬

有些网站会通过给关键字自定义字体,然后使用字体code名替换内容来使爬网站的人爬取无效字符,进而阻止一部分人爬取网站。例如,我们打开实习僧网站的其中一页,查看代码。我们看到其中的数字无法直接读取。

为了解决这个问题,我们需要对字体进行解析。

考虑网页渲染性能,通常把自定义的字体编码成base64,因此,我们可以在网页源代码中中查找@font-face获取编码再用python进行解码然后保存到本地,

import base64
from fontTools.ttLib import TTFontheaders = {"User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/83.0.4103.116 Safari/537.36 Edg/83.0.478.56",
}fontFace = ""# 解码base64字体文件
font_bytes = base64.b64decode(fontFace)# 保存到本地文件
with open("shixiseng.ttf", "wb") as fp:fp.write(font_bytes)

之后,将字体文件转成xml,需要安装fontTools库,

pip install fontTools

字体文件转成xml,

from fontTools.ttLib import TTFontbaseFont = TTFont("shixiseng.ttf")
baseFont.saveXML('shixiseng.xml')  # 将字体文件保存为xml文件

打开xml文件,我们可以看到有字体的cmap和glyf。其中,cmap中存放的是code和name之间的关系,glyf中存放的是字体形状和name的关系。

code是显示在网页中的代码,网站开发者可能会通过修改code来干扰我们爬取。但是字体最终的形状是不变的,我们可以通过分析字体,得出每个字体形状对应的文字,然后保存到一个字典中。以后再请求网页的时候,就进行反向解析,先获取字体的形状,再通过字体形状反向获取代号所对应的具体文字内容。

代码如下,

import requests
import base64
from fontTools.ttLib import TTFont
import re
import ioheaders = {"User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/83.0.4103.116 Safari/537.36 Edg/83.0.478.56",
}fontFace = ""# 解码base64字体文件
font_bytes = base64.b64decode(fontFace)# 将字体文件保存本地
with open("shixiseng.ttf", "wb") as fp:fp.write(font_bytes)# 获取形状对象
baseFont = TTFont('shixiseng.ttf')
baseGlyf = baseFont['glyf']# 定义内容和字体形状的映射关系
baseFontMap = {0: baseGlyf['uni30'],1: baseGlyf['uni31'],2: baseGlyf['uni32'],3: baseGlyf['uni33'],4: baseGlyf['uni34'],5: baseGlyf['uni35'],6: baseGlyf['uni36'],7: baseGlyf['uni37'],8: baseGlyf['uni38'],9: baseGlyf['uni39'],
}# 爬取网页
url = "https://www.shixiseng.com/intern/inn_t2sefv2wegpw"
resp = requests.get(url, headers=headers)
text = resp.text# 获取当前页面的字体文件
result = re.search(r'font-family:myFont; src: url\("data:application/octet-stream;base64,(.+?)"\)', text)  # 使用正则表达式获取字体编码
font_face = result.group(1)
b = base64.b64decode(font_face)
currentFont = TTFont(io.BytesIO(b))  # 当前页面的字体
currentGlyf = currentFont['glyf']  # 当前字体的所有形状# 获取code和name的关系
codeNameMap = currentFont.getBestCmap()
for code, name in codeNameMap.items():# 获取name和形状的关系currentShape = currentGlyf[name]# 循环内容和形状的字典for number, shape in baseFontMap.items():if shape == currentShape:# 构建网页中的codewebcode = str(hex(code)).replace('0', '&#', 1)# 将网页中的code换成内容text = re.sub(webcode, str(number), text)

python爬虫之JS混淆加密、字体反爬相关推荐

  1. python爬虫处理js混淆加密_python爬虫之破解javascript-obfuscator的混淆加密

    接上一篇有关前端加密达到反爬的文章,是不是觉得用了javascript-obfuscator 就很安全了,那还真不一定啊,还是那句,反爬与反反爬一直在斗争,没有谁能绝对的压制另一方,只有使用者技术的高 ...

  2. python爬虫处理js混淆加密_Python爬虫—破解JS加密的Cookie

    專 欄 ❈Jerry,Python中文社区专栏作者. blog:https://my.oschina.net/jhao104/blog github:https://github.com/jhao10 ...

  3. 【JS 逆向百例】网洛者反爬练习平台第一题:JS 混淆加密,反 Hook 操作

    关注微信公众号:K哥爬虫,持续分享爬虫进阶.JS/安卓逆向等技术干货! 文章目录 声明 写在前面 逆向目标 绕过无限 debugger Hook 参数 逆向参数 PyCharm 本地联调 完整代码 J ...

  4. Python爬虫第二课 Selenium介绍和反爬技术

    selenium的介绍 知识点: 了解 selenium的工作原理 了解 selenium以及chromedriver的安装 掌握 标签对象click点击以及send_keys输入 1. seleni ...

  5. 前端电子表数字字体_爬虫:如何优雅应对字体反爬

    目录 THE BEGIN 一 什么是字体反爬 二 如何解密 1.人工解密 2.工具解密 三 建立映射关系 四 解密 THE BEGIN 网页数据爬取可以简单分为三步:抓取页面,分析页面,存储数据.其中 ...

  6. Python爬虫进阶之起点中文网字体反扒保姆级教程!!!

    文章目录 1.网页查看 2.网页爬取代码 3.字体反扒研究 4.完整代码 本次字体反扒实验的网站是起点中文网 GlidedSky字体反扒详解 建议先看完本章 1.网页查看

  7. 爬虫:汽车之家字体反爬

    1.我的目的 汽车之家对某些字体进行了反爬虫操作,直接获取是一堆乱码,这次要做的是对这些乱码进行转化,转化为我们想要的符号\汉字 2.前提知识 首先得了解一下字体反爬虫是什么意思: 当前css可以指定 ...

  8. python爬虫实战经典案例,突破反爬!爬取短视频!

    今天在爬取某梨短视频时,发现前端代码跟之前都不一样了.加入了很多的反爬措施.在此特意记录一下! 先来看一下最终执行结果: 爬虫重要的不是写代码,而是分析!分析它的网页请求! 爬虫的基本过程一般如下: ...

  9. python爬虫--破解js加密:kankan登录破解

    这一系列文章旨在解决python 爬虫过程中遇到的各种反爬,从简单到复制,是个进阶的过程.如果对你有帮助,欢迎关注. 今天要破解的网站是天天看看(http://www.kankan.com/)的登录, ...

  10. 爬虫入门到放弃系列07:js混淆、eval加密、字体加密三大反爬技术

    前言 如果再说IP请求次数检测.验证码这种最常见的反爬虫技术,可能大家听得耳朵都出茧子了.当然,也有的同学写了了几天的爬虫,觉得爬虫太简单.没有啥挑战性.所以特地找了三个有一定难度的网站,希望可以有兴 ...

最新文章

  1. 关于并发处理,下列哪些说法符合《阿里巴巴Java开发手册》
  2. android如何查看分区信息,android如何查看分区信息
  3. 【pmcaff】苏杰:产品经理对技术做这些,就完蛋了
  4. 如何判断软件架构的好与坏
  5. 一个简单的状态机设计
  6. java string对象,java中String对象
  7. 文本分析用GUI界面显示
  8. 解决ubuntu克隆github上的项目速度很慢的问题
  9. OC5028B 内置MOS开关降压型LED恒流驱动器
  10. 计算机酷炫桌面,电脑桌面还能这么酷炫?!打破次元壁的桌面管理软件
  11. android 写字板_微软正在Windows 10上的写字板中测试广告
  12. mysql admin账号密码忘记_使用mysqladmin命令修改Mysql密码与忘记密码
  13. 【微信小程序】用户授权以及判断登录是否过期的方法
  14. 面试官:设计模式是什么?
  15. Macbook删除苹果系统,装单系统win10系统
  16. javaweb+移动端 富文本
  17. tableau-去掉ABC方法
  18. 腾讯地图经纬度解析出地址
  19. Prolific USB-to-Serial Comm Port在win8.1下
  20. 计算机应用基础模板一,计算机应用基础试卷模板(一)

热门文章

  1. 网站建设基本流程,要注意什么?
  2. 感觉中国程序员前景一片灰暗,是这样吗?Android开发工程师为你答疑解惑
  3. 人工智能——特征工程思维导图
  4. windows无法连接到打印机,打印处理器不存在
  5. python千位分隔符_31 python中format方法:字段宽度、精度和千位分隔符 符号、对齐和用0填充...
  6. matlab小波变换、离散小波变换函数使用
  7. python入门指南by许半仙-《江火欲燃山》《这题超纲了》《Python入门指南》
  8. android仿ios更新方式,Android中仿IOS提示框的实现方法
  9. 畅捷支付显示连接服务器失败,畅捷支付POS机常见错误码解决方法!
  10. Logstash详解之——input模块