一、背景

  • 看了网上很多的博客教程基本都已经失效了,截止2019年12月23日亲测是可行的,以后猫眼可能会修改策略

           查看网页源码会发现是这些字母组成了它的实时票房,并且每次刷新都会变化,是因为每次动态刷新了class=stonefont对应的woff字体静态文件造成的

            因为woff文件会变,所以猜想每个woff文件之间应该有一定的关联性

二、解密步骤

1)、手工制作基本字典

  • 先用python把woff文件转化成xml文件
#!/usr/bin/python
# coding:utf-8
from fontTools.ttLib import TTFont
font=TTFont('./base.woff') #读取woff文件
font.saveXML('./base.xml') #转成xml
  • 查看部分base.xml 代码, 可以发现 TTGlyph 标签的name属性值可以对上页面html中的源码,这样可以手工把base.xml做成一个字典
<TTGlyph name="uniEC4C" xMin="0" yMin="-27" xMax="525" yMax="707"><contour><pt x="323" y="-26" on="1"/><pt x="331" y="140" on="1"/><pt x="7" y="146" on="1"/><pt x="24" y="232" on="1"/><pt x="337" y="707" on="1"/><pt x="421" y="707" on="1"/><pt x="419" y="232" on="1"/><pt x="524" y="224" on="1"/><pt x="512" y="144" on="1"/><pt x="421" y="155" on="1"/><pt x="424" y="-13" on="1"/><pt x="331" y="-22" on="1"/></contour><contour><pt x="322" y="241" on="1"/><pt x="333" y="563" on="1"/><pt x="92" y="232" on="1"/><pt x="341" y="232" on="1"/></contour><instructions/></TTGlyph>

2)、解析最新的woff文件和手工字典做比对

假设新的woff文件是test1.woff ,直接用第一步的python脚本转化为test1.xml 文件,然后查看test1.xml文件部分代码

<TTGlyph name="uniF13C" xMin="0" yMin="-36" xMax="521" yMax="713"><contour><pt x="322" y="-26" on="1"/><pt x="316" y="158" on="1"/><pt x="28" y="146" on="1"/><pt x="13" y="221" on="1"/><pt x="347" y="712" on="1"/><pt x="434" y="695" on="1"/><pt x="426" y="237" on="1"/><pt x="505" y="232" on="1"/><pt x="520" y="149" on="1"/><pt x="419" y="149" on="1"/><pt x="435" y="-35" on="1"/><pt x="331" y="-26" on="1"/></contour><contour><pt x="331" y="232" on="1"/><pt x="331" y="572" on="1"/><pt x="96" y="227" on="1"/><pt x="339" y="240" on="1"/></contour><instructions/></TTGlyph>

页面截取的base.xml中的代码和test1.xml中的代码都是同一个数字4,仔细观察可以看出它们的字形很相近, base.xml中的x轴及y轴位置和test1.xml中x轴及y轴的位置很相近,绝对值误差在80以内,但也有部分超过了80,此时我们只需要从test1.xml中求出和base.xml中最相近的字体就可以了,即求test1.xml中的TTGlyph元素在base.xml手工字典中字形相似度最高就是base.xml中的哪个数字了

  • 伪代码如下(自己是用python转化成xml文件之后使用java实现的,具体代码太多了就不贴出来了)
int weight = 0
ifabs(base[i][0] - test1[i][0]) <80andabs(base[i][1] - test1[i][1]) <80:
++weight
  • 核心思想就是求字形的相似度weight, 权重最高的数字就是最终的答案。

最新猫眼电影反爬虫解密相关推荐

  1. python调用woff_GitHub - zergtant/python-maoyan-spider: woff-xml解码 “猫眼网反爬虫机制” 的爬虫。...

    猫眼网反爬虫策略的处理 2018/12/7测试有效 注意:爬取频繁之后,会根据mac与ip地址封禁,修改为局域网其他ip后,大概5-6次修改,就会封网关 [目录] 一.引入问题 可以看到,猫眼网电影评 ...

  2. Python爬虫:猫眼电影反爬—动态字体处理(2020)

    2020年5月25日更新,在爬了几百条后发现,有少部分数据会出错,出错概率很小.目前推测其原因是因为欧氏距离在对于(-1,0)和(0,1)这种数据计算结果差异不大的原因.有精度需求的建议改用别的距离计 ...

  3. 爬取TOP100榜猫眼电影信息 爬虫实战

    写在前面 最近在学爬虫,跟着崔庆才大佬的个人网站学习. 今天跟着做了一个爬虫来爬取猫眼电影top100榜的电影信息.其中遇到了一些问题,这里就写成博客记录下来. 遇到的问题 反爬虫机制:在进行html ...

  4. Python3 网络爬虫 简易的猫眼电影排行榜爬虫

    import requests import urllib import re#首先获得请求一个界面,这是一个通用的代码,包括伪装浏览器,状态码验证等.def get_one_page(url):he ...

  5. 如何利用 C# + Python 破解猫眼电影的反爬虫机制?

    在 如何利用 C# 爬取「猫眼电影:最受期待榜」及对应影片信息! 这篇图文中可以看到猫眼电影对"本月新增想看人数" 和 "总想看人数"进行了字符集加密. 在 如 ...

  6. 如何利用 C# 爬取「猫眼电影:国内票房榜」及对应影片信息!

    以前我写过一些爬取猫眼电影数据的图文: 如何利用 C# 爬取「猫眼电影专业版:票房」数据? 如何利用 C# 爬取「猫眼电影:热映口碑榜」及对应影片信息? 如何利用 C# 爬取「猫眼电影:最受期待榜」及 ...

  7. Python爬虫-猫眼电影《冰雪奇缘2》评论数据的可视化分析

    [TPython爬虫-猫眼电影<冰雪奇缘2>评论数据的可视化分析 项目简介 爬虫,称为网页蜘蛛或网络机器人,用于自动获取互联网上的信息.我通过python爬虫来爬取猫眼电影的评论,对最新热 ...

  8. 【崔庆才教材】《Python3网络爬虫开发实战》3.4爬取猫眼电影排行代码更正(绕过美团验证码)

    前情提要 最近有七八个小伙伴私信问我说崔大神的<Python3网络爬虫开发实战>教材中 "3.4爬取猫眼电影排行" 一节的代码目前不能用. 首先附上崔大神的github ...

  9. 利用requests库抓取猫眼电影排行

    文章目录 1.抓取目标 2.准备工作 3.抓取分析 4.抓取首页 5.正则提取 6.写入文件 7.整合代码 8.分页爬取 9.运行结果 10.本节代码 最近刚开始了解爬虫,学习了一下基本库的使用.跟着 ...

最新文章

  1. boost::log::sinks::unlocked_sink用法的测试程序
  2. 截取最后一个下划线前面的字符
  3. [慢查优化]联表查询注意谁是驱动表 你搞不清楚谁join谁更好时请放手让mysql自行判定...
  4. 2007-11-22 21:24 大端(Big Endian)与小端(Little Endian)详解
  5. 数据分析的五个阶段及价值
  6. 苹果运营商中移动苹果互盼“在一起” 最快Q3推4G移动版iPhone
  7. 操作系统 第二部分 进程管理(五)
  8. UBUNTU使用GITHUB
  9. 二极管正向浪涌测试系统
  10. python+neo4j ,Dota2自走棋,小型知识图谱构建
  11. Freemarker - 根据模板动态生成word文档
  12. Wavel Sequence HDU - 6078 (dp)
  13. 河北软件职业技术学院计算机应用工程系,河北软件职业技术学院第四届模特大赛举办成功...
  14. 支付宝积分兑换的扫地机器人好用_如何选购扫地机器人?
  15. 学习新的计算机语言的方法
  16. Excel 单元格中插入附件
  17. 关于舆情系统的“准”
  18. 要嫁就嫁个37度男人
  19. Energy 收购 VDD Tech
  20. 关于联通手机营业厅中的在线销户,大家有什么想说的?

热门文章

  1. cmd ping 一台计算机名,windows CMD命令查看局域网内所有主机名及IP
  2. [AI开发]深度学习如何选择GPU?
  3. NLG评估指标chrF、chrF++介绍
  4. 如何构建虚拟机Hadoop集群,搭建3台ubuntu虚拟机集群
  5. 【单调队列优化DP】烽火传递 LibreOJ - 10180
  6. postgresql修改密码
  7. .net 如何引用迅雷组件
  8. 「解决方案」预付费水电及宿舍预付费云平台解决方案
  9. LinuxProbe学习笔记(二)
  10. 财阀还是民主?DeFi协议大战,暗潮汹涌