你已经知道了对方是

如何自定义字体加密的了

你要想去反反爬

你就要先站在对方的角度去思考问题

有句话这么说来着

“知己知彼,才能那啥”

那么对于像猫眼电影、大众点评等等

那样的 css 自定义字体加密

应该怎么破呢?

接下来就是

学习 python 的正确姿势

有人说了

不就是把字体通过 unicode 编码吗?

那就简单了啊

把每个字的编码找到

然后使用字典把编码和对应的字对应起来

抓取分析的时候

直接替换不就得了

有道理是有道理

但是

如果我每次返回给你的编码都不一样呢?

你说死不死

好了好了,先别哭得那么舒服

我们来看看天猫电影票房榜单的页面

https://maoyan.com/board/1

正如你所看到的那样

这里也使用了字体加密

通过源代码我们可以看到

font-face这里制定了字体文件路径

还是熟悉的配方

熟悉的味道~

不过小老弟

还是不要开心太早

刷新几次你就会发现

(盯着下图 2 秒钟)

看到没有

字体文件一直在变

woc!

玩呢?

我们先把字体文件下载下来

# 把整个页面搞下来url = 'https://maoyan.com/board/1'html = download_html(url).decode('utf-8')

用正则把字体文件名拿一下

font_file_name = re.findall(r'//vfile.meituan.net/colorstone/(w+.woff)', html)[0]

拿到了文件名之后就构建一下url

然后把字体文件下载下来

url = 'http://vfile.meituan.net/colorstone/' + font_file_namefont_file = download_html(url)

接着把字体文件写到本地文件中

 with open('fonts/' + font_file, 'wb') as f: f.write(new_file)

使用 fontTools 来获取字体

如果你之前没安装的话要安装才能用

接着我们把字体文件保存为 xml

font = TTFont('fonts/' + font_file)font.saveXML('./'+font_file+'.xml')

快打开打开看看

哇,这些玩意

有点眼熟啊

这不就是加密的 unicode 码么

左边的 id 难道就是对应的数字?

恩没那么简单

就能找到聊得来的伴

尤其是在看过了那么多背叛

总是....

不好意思

走错片场了

回到我们刚刚的 xml 文件

往下拉一下

可以看到这个

这里每一个编码都对应一个 TTGlyph 对象

从各种 x y 坐标可以猜测

它应该是用来绘制一个字的

我们把任意一个对象复制一下

然后用 matplotlib 根据坐标画个图试试看

import matplotlib.pyplot as pltimport restr = """" .....此处省略一点代码 """x = [int(i) for i in re.findall(r'

modelandview 可以返回html么_python爬虫反反爬,你几乎可以横扫大部分 css 字体加密的网站...相关推荐

  1. python爬虫反爬对抗_python爬虫反反爬,你几乎可以横扫大部分 css 字体加密的网站...

    你已经知道了对方是 如何自定义字体加密的了 你要想去反反爬 你就要先站在对方的角度去思考问题 有句话这么说来着 "知己知彼,才能那啥" 那么对于像猫眼电影.大众点评等等 那样的 c ...

  2. Python爬虫——大众点评,爬取用户电影评论,CSS字体加密

    导航 爬取网址 字体加密原理分析 代码 获取3个字体加密文件 提取用户信息和评论 解密评论 结果 总结 最近一直在学习爬虫,刚好到了反爬这一块,听朋友说大众点评的反爬挺厉害,分析了一下发现还是老熟人, ...

  3. modelandview 可以返回html么_Python: 爬虫网页解析工具lxml.html(一)

    狭义上讲,爬虫只负责抓取,也就是下载网页.而实际上,爬虫还要负责从下载的网页中提取我们想要的数据,即对非结构化的数据(网页)进行解析提取出结构化的数据(有用数据). 所以说,网页下载下来只是第一步,还 ...

  4. python 爬视频下载_Python爬虫进阶之爬取某视频并下载的实现

    这篇文章我们来讲一下在网站建设中,Python爬虫进阶之爬取某视频并下载的实现.本文对大家进行网站开发设计工作或者学习都有一定帮助,下面让我们进入正文. 这几天在家闲得无聊,意外的挖掘到了一个资源网站 ...

  5. python爬虫scrapy爬取新闻标题及链接_python爬虫框架scrapy爬取梅花网资讯信息

    原标题:python爬虫框架scrapy爬取梅花网资讯信息 一.介绍 本例子用scrapy-splash爬取梅花网(http://www.meihua.info/a/list/today)的资讯信息, ...

  6. layui获取input信息_python爬虫—用selenium爬取京东商品信息

    python爬虫--用selenium爬取京东商品信息 1.先附上效果图(我偷懒只爬了4页) 2.京东的网址https://www.jd.com/ 3.我这里是不加载图片,加快爬取速度,也可以用Hea ...

  7. python爬虫-爬妹子图_Python 爬虫入门之爬取妹子图

    Python 爬虫入门之爬取妹子图 来源:李英杰  链接: https://segmentfault.com/a/1190000015798452 听说你写代码没动力?本文就给你动力,爬取妹子图.如果 ...

  8. monthy python爬虫_Python爬虫DOTA排行榜爬取实例(分享)

    Python爬虫DOTA排行榜爬取实例(分享) 1.分析网站 打开开发者工具,我们观察到排行榜的数据并没有在doc里 doc文档 在Javascript里我么可以看到下面代码: ajax的post方法 ...

  9. 猫眼爬虫三-终极篇:破解滑动验证,动态字体加密

    前面两节我们对猫眼网站进行了爬取,中间,我们会遇到各种反爬虫,包括滑动验证和字体加密等等,今天,我们就对这些反爬虫进行一一破解,实现猫眼网站的全信息爬取! 1.滑动验证:滑动验证类似于极验证(滑块验证 ...

最新文章

  1. ORDNet:为场景分割捕获全范围依赖关系
  2. js 小数点 精准算法
  3. 解决import keras后出现的一系列问题
  4. ECMAScript6 新特性——“字符串的扩展”
  5. 把combobox控件添加到datagridview控件中_自定义系列:控件属性添加
  6. lottie 动画_使用After Effects和Lottie制作网络动画而不会损失质量
  7. Object.hashCode()与Object.equals()
  8. 忘记MySQL密码怎么办?一招教你搞定!
  9. 算法63----丑数【动态规划】
  10. 使用Ext Designer 设计简单计算器
  11. linux内核奇遇记之md源代码解读之七阵列同步一
  12. rds基于什么开发_玩物得志: 基于DataWorks+MaxCompute+MC-Hologres 构建大数据平台
  13. Voxengo音频插件合集:Voxengo Total Bundle Mac
  14. 内蒙古自治区通辽市谷歌高清卫星地图下载(百度网盘离线包下载)
  15. 数字电路与逻辑设计(复习)
  16. c语言的Hello World
  17. 2008服务器系统开启ftp,2008服务器开启ftp服务
  18. android硬盘格式化时间,安卓手机格式化恢复
  19. 数据挖掘中的模式发现(七)GSP算法、SPADE算法、PrefixSpan算法
  20. 志愿人生——带给你每一次温暖

热门文章

  1. 腾讯云社区发表博客的前台JavaScript实现
  2. java数据跑不出来,6000条数据,java下跑了20多分钟了还没跑完,求教怎么改进
  3. mysql 主从 问题_Mysql解决主从不同步问题
  4. 大闹天竺里的机器人_在《大闹天竺》中哪一位演员是你喜欢的
  5. c语言阶乘分解成素因子,阶乘的素因子分解 51nod 1189
  6. python 连续比较_For循环比较python中以前的值
  7. java在退出前释放资源_Java中如何通过try优雅地释放资源?
  8. log4j2.xml 文件
  9. php 函数 配置文件,php的几个配置文件函数
  10. 如何获取当日日期_Power BI时间智能函数如何处理2月29日的?