字体反爬,下载 .woff 文件
找到源代码里面的 .woff 字体文件,下载下来,下面的代码转换为原来的映射
字体文件是二进制的
from fontTools.ttLib import TTFontdef get_cmap(self,font_nums):"""分析字体所映射的值:param font_nums: 当前页面获取到的数组:return:"""num_str = ''# 读取字体font = TTFont("font.woff")# 生存成xml文件 酿成python可读,举行分析font.saveXML('font.xml')# 读取映射表best_cmap = font['cmap'].getBestCmap()best_glpy = font['cmap'].tables[2].ttFont.getReverseGlyphMap()temp_cmap = dict()for key, value in best_cmap.items():temp_cmap[chr(key)] = valuefor ns in font_nums :for n in ns :num_str += str((best_glpy[temp_cmap[n]] - 2))self.all_num += int(num_str)num_str = ''
读取后的方法,可以对照 xml 文件方便查看:
# 读取字体
font = TTFont("font.woff")# 生存成xml文件 酿成python可读,举行分析
font.saveXML('font.xml')"""
获得 name 属性,返回列表
<GlyphOrder><GlyphID id="0" name=".notdef"/>...
</GlyphOrder>
"""
font.getGlyphOrder()"""
获得 code : name ,返回字典,键的值需要用 chr() 转换一下
<map name="cid00019" code="0x30"/>
...
"""
best_cmap = font['cmap'].getBestCmap()"""
获得 name : id,返回字典
<GlyphOrder><GlyphID id="0" name=".notdef"/>...
</GlyphOrder>
"""
best_glpy = font['cmap'].tables[2].ttFont.getReverseGlyphMap()
总结:
爬到网页的字符 :name
name :code
先获取 <GlyphOrder> 对应的映射,在获取 <cmap> 里面的映射来找对应关系
字体反爬,下载 .woff 文件相关推荐
- woff字体反爬实战,10分钟就能学会(ttf字体同理)
声明:本帖子仅是用于学习用途,请勿与用于恶意破坏别人网站,本人不承担法律责任. 来继续学爬虫呀! 很开心,竟然上榜某爬虫练习网站了!!! 来看一下榜单 超激动的!!但是还有两道目前个人解决不了,希望哪 ...
- 爬虫之遇到woff字体反爬
本篇博文的主题就是处理字体反爬,其实这种网上已经很多了,只是这次有点不一样,处理方式变化了点,记录一下. 以python3.7为基础 直接干货: 网站是json数据返回的: 这个网站有个好玩的地方,直 ...
- woff字体反爬处理
woff文件处理 可视化软件 xml文件结构关系 静态,动态woff文件处理方法 可视化软件 woff文件一般使用fontcreator查看 链接: https://dqunying2.jb51.ne ...
- 爬虫woff字体反爬破解
好久没写爬虫了,最近发现很多网站都出现了woff字体反爬.百度找了一下,发现都要钱,只好默默说一声fuck 那么,只好自己破解了.好的,那么开始. 如果你在抓去某个网站时候,抓下来的文字读不通,打开n ...
- 斗鱼关注人数爬取 | 字体反爬的攻与防
作者:CJ Ting 原文:https://cjting.me/2020/07/01/douyu-crawler-and-font-anti-crawling/ 之前因为业务原因需要爬取一批斗鱼主播的 ...
- 爬get接口_网络字体反爬之起点中文小说
前几天跟同事聊到最近在看什么小说,想起之前看过一篇文章说的是网络十大水文,就想把起点上的小说信息爬一下,搞点可视化数据看看.这段时间正在看爬虫框架-pyspider,觉得这种网站用框架还是很方便的,所 ...
- k 近邻算法解决字体反爬手段|效果非常好
字体反爬,是一种利用 CSS 特性和浏览器渲染规则实现的反爬虫手段.其高明之处在于,就算借助(Selenium 套件.Puppeteer 和 Splash)等渲染工具也无法拿到真实的文字内容. 这种反 ...
- python爬虫进阶-汽车之家贴吧信息(字体反爬-动态映射)
目的 获取汽车之家贴吧的内容信息 详细需求 汽车之家贴吧 思路解析 一.F12获取目标信息-进行分析 二.字体反爬解析-根据上一篇的文章,直接搜索关键词就好 三 根据其后的链接,保存为ttf在本地,查 ...
- python爬虫笔记五:汽车之家贴吧信息(字体反爬-动态映射)
学习网址: https://jia666666.blog.csdn.net/article/details/108974149 ----------------------------------- ...
- python爬取猫眼遇到动态字体反爬
前一段时间,爬取了58同城,发现当时的网页对数字有字体反爬虫,然后废了九牛二虎之力找到了规律,终于破解了反爬虫,后来发现猫眼的这个网页虽然使用了字体反爬,但是和原来的58同城还是有很大的差别,后来了解 ...
最新文章
- Linux 单用户模式修改密码与救援模式修改密码总结
- C#的反射机制调用方法
- 【图像分割模型】感受野与分辨率的控制术—空洞卷积
- python带格式复制excel样式和内容_使用python的xlrd,xlwt和xlutils.copy保留样式
- 插入始终是1_插入式电磁流量计特点与应用
- 计算机基础教育学,计算机基础教育教学改革与创新
- C++ 获取函数耗时
- UWP开发细节记录:判断文件类型
- RabbitMq 3.0.1 技术预演资料
- “无语!只因姓True,苹果封了我的iCloud账户”
- GDUFE ACM-1096
- angular环境配置
- 解决Rocketdock在win7上重启后不能保存设置和图标的问题
- javassist修炼笔记
- oracle 建同义词语句,Oracle 同义词的创建
- 微信JSAPI之V3版本支付踩坑
- 学习少儿编程成就不平凡人生
- web端禁止打开控制台
- 计算机视觉——三维视觉 I
- Pytorch训练速度更快的十七种方法