找到源代码里面的 .woff 字体文件,下载下来,下面的代码转换为原来的映射

字体文件是二进制的

from fontTools.ttLib import TTFontdef get_cmap(self,font_nums):"""分析字体所映射的值:param font_nums: 当前页面获取到的数组:return:"""num_str = ''# 读取字体font = TTFont("font.woff")# 生存成xml文件 酿成python可读,举行分析font.saveXML('font.xml')# 读取映射表best_cmap = font['cmap'].getBestCmap()best_glpy = font['cmap'].tables[2].ttFont.getReverseGlyphMap()temp_cmap = dict()for key, value in best_cmap.items():temp_cmap[chr(key)] = valuefor ns in font_nums :for n in ns :num_str += str((best_glpy[temp_cmap[n]] - 2))self.all_num += int(num_str)num_str = ''

读取后的方法,可以对照 xml 文件方便查看:

# 读取字体
font = TTFont("font.woff")# 生存成xml文件 酿成python可读,举行分析
font.saveXML('font.xml')"""
获得 name 属性,返回列表
<GlyphOrder><GlyphID id="0" name=".notdef"/>...
</GlyphOrder>
"""
font.getGlyphOrder()"""
获得 code : name ,返回字典,键的值需要用 chr() 转换一下
<map name="cid00019" code="0x30"/>
...
"""
best_cmap = font['cmap'].getBestCmap()"""
获得 name : id,返回字典
<GlyphOrder><GlyphID id="0" name=".notdef"/>...
</GlyphOrder>
"""
best_glpy = font['cmap'].tables[2].ttFont.getReverseGlyphMap()

总结:

爬到网页的字符 :name

name :code

先获取 <GlyphOrder> 对应的映射,在获取 <cmap> 里面的映射来找对应关系

字体反爬,下载 .woff 文件相关推荐

  1. woff字体反爬实战,10分钟就能学会(ttf字体同理)

    声明:本帖子仅是用于学习用途,请勿与用于恶意破坏别人网站,本人不承担法律责任. 来继续学爬虫呀! 很开心,竟然上榜某爬虫练习网站了!!! 来看一下榜单 超激动的!!但是还有两道目前个人解决不了,希望哪 ...

  2. 爬虫之遇到woff字体反爬

    本篇博文的主题就是处理字体反爬,其实这种网上已经很多了,只是这次有点不一样,处理方式变化了点,记录一下. 以python3.7为基础 直接干货: 网站是json数据返回的: 这个网站有个好玩的地方,直 ...

  3. woff字体反爬处理

    woff文件处理 可视化软件 xml文件结构关系 静态,动态woff文件处理方法 可视化软件 woff文件一般使用fontcreator查看 链接: https://dqunying2.jb51.ne ...

  4. 爬虫woff字体反爬破解

    好久没写爬虫了,最近发现很多网站都出现了woff字体反爬.百度找了一下,发现都要钱,只好默默说一声fuck 那么,只好自己破解了.好的,那么开始. 如果你在抓去某个网站时候,抓下来的文字读不通,打开n ...

  5. 斗鱼关注人数爬取 | 字体反爬的攻与防

    作者:CJ Ting 原文:https://cjting.me/2020/07/01/douyu-crawler-and-font-anti-crawling/ 之前因为业务原因需要爬取一批斗鱼主播的 ...

  6. 爬get接口_网络字体反爬之起点中文小说

    前几天跟同事聊到最近在看什么小说,想起之前看过一篇文章说的是网络十大水文,就想把起点上的小说信息爬一下,搞点可视化数据看看.这段时间正在看爬虫框架-pyspider,觉得这种网站用框架还是很方便的,所 ...

  7. k 近邻算法解决字体反爬手段|效果非常好

    字体反爬,是一种利用 CSS 特性和浏览器渲染规则实现的反爬虫手段.其高明之处在于,就算借助(Selenium 套件.Puppeteer 和 Splash)等渲染工具也无法拿到真实的文字内容. 这种反 ...

  8. python爬虫进阶-汽车之家贴吧信息(字体反爬-动态映射)

    目的 获取汽车之家贴吧的内容信息 详细需求 汽车之家贴吧 思路解析 一.F12获取目标信息-进行分析 二.字体反爬解析-根据上一篇的文章,直接搜索关键词就好 三 根据其后的链接,保存为ttf在本地,查 ...

  9. python爬虫笔记五:汽车之家贴吧信息(字体反爬-动态映射)

    学习网址: https://jia666666.blog.csdn.net/article/details/108974149 ----------------------------------- ...

  10. python爬取猫眼遇到动态字体反爬

    前一段时间,爬取了58同城,发现当时的网页对数字有字体反爬虫,然后废了九牛二虎之力找到了规律,终于破解了反爬虫,后来发现猫眼的这个网页虽然使用了字体反爬,但是和原来的58同城还是有很大的差别,后来了解 ...

最新文章

  1. Linux 单用户模式修改密码与救援模式修改密码总结
  2. C#的反射机制调用方法
  3. 【图像分割模型】感受野与分辨率的控制术—空洞卷积
  4. python带格式复制excel样式和内容_使用python的xlrd,xlwt和xlutils.copy保留样式
  5. 插入始终是1_插入式电磁流量计特点与应用
  6. 计算机基础教育学,计算机基础教育教学改革与创新
  7. C++ 获取函数耗时
  8. UWP开发细节记录:判断文件类型
  9. RabbitMq 3.0.1 技术预演资料
  10. “无语!只因姓True,苹果封了我的iCloud账户”
  11. GDUFE ACM-1096
  12. angular环境配置
  13. 解决Rocketdock在win7上重启后不能保存设置和图标的问题
  14. javassist修炼笔记
  15. oracle 建同义词语句,Oracle 同义词的创建
  16. 微信JSAPI之V3版本支付踩坑
  17. 学习少儿编程成就不平凡人生
  18. web端禁止打开控制台
  19. 计算机视觉——三维视觉 I
  20. Pytorch训练速度更快的十七种方法

热门文章

  1. 四、WebScada-OSHMI的Modbus采集
  2. MongoDB 启动参数
  3. Hadoop(yarn)集群安装
  4. 用Python定义一个求绝对值的函数
  5. Unity3D: 给字符串中的部分字体添加颜色突出显示
  6. 判断一个数是不是质数
  7. 全国计算机建模三等奖,青春榜样 | 吴昊 : 守得云开见月明
  8. 新编程语言——微软的“M”语言
  9. 烧录flash_烧录固件完成后,配置JFLASH让程序自动运行
  10. python“反反爬虫”