最新猫眼电影反爬虫解密
一、背景
- 看了网上很多的博客教程基本都已经失效了,截止2019年12月23日亲测是可行的,以后猫眼可能会修改策略
查看网页源码会发现是这些字母组成了它的实时票房,并且每次刷新都会变化,是因为每次动态刷新了class=stonefont对应的woff字体静态文件造成的
因为woff文件会变,所以猜想每个woff文件之间应该有一定的关联性
二、解密步骤
1)、手工制作基本字典
- 先用python把woff文件转化成xml文件
#!/usr/bin/python
# coding:utf-8
from fontTools.ttLib import TTFont
font=TTFont('./base.woff') #读取woff文件
font.saveXML('./base.xml') #转成xml
- 查看部分base.xml 代码, 可以发现 TTGlyph 标签的name属性值可以对上页面html中的源码,这样可以手工把base.xml做成一个字典
<TTGlyph name="uniEC4C" xMin="0" yMin="-27" xMax="525" yMax="707"><contour><pt x="323" y="-26" on="1"/><pt x="331" y="140" on="1"/><pt x="7" y="146" on="1"/><pt x="24" y="232" on="1"/><pt x="337" y="707" on="1"/><pt x="421" y="707" on="1"/><pt x="419" y="232" on="1"/><pt x="524" y="224" on="1"/><pt x="512" y="144" on="1"/><pt x="421" y="155" on="1"/><pt x="424" y="-13" on="1"/><pt x="331" y="-22" on="1"/></contour><contour><pt x="322" y="241" on="1"/><pt x="333" y="563" on="1"/><pt x="92" y="232" on="1"/><pt x="341" y="232" on="1"/></contour><instructions/></TTGlyph>
2)、解析最新的woff文件和手工字典做比对
假设新的woff文件是test1.woff ,直接用第一步的python脚本转化为test1.xml 文件,然后查看test1.xml文件部分代码
<TTGlyph name="uniF13C" xMin="0" yMin="-36" xMax="521" yMax="713"><contour><pt x="322" y="-26" on="1"/><pt x="316" y="158" on="1"/><pt x="28" y="146" on="1"/><pt x="13" y="221" on="1"/><pt x="347" y="712" on="1"/><pt x="434" y="695" on="1"/><pt x="426" y="237" on="1"/><pt x="505" y="232" on="1"/><pt x="520" y="149" on="1"/><pt x="419" y="149" on="1"/><pt x="435" y="-35" on="1"/><pt x="331" y="-26" on="1"/></contour><contour><pt x="331" y="232" on="1"/><pt x="331" y="572" on="1"/><pt x="96" y="227" on="1"/><pt x="339" y="240" on="1"/></contour><instructions/></TTGlyph>
页面截取的base.xml中的代码和test1.xml中的代码都是同一个数字4,仔细观察可以看出它们的字形很相近, base.xml中的x轴及y轴位置和test1.xml中x轴及y轴的位置很相近,绝对值误差在80以内,但也有部分超过了80,此时我们只需要从test1.xml中求出和base.xml中最相近的字体就可以了,即求test1.xml中的TTGlyph元素在base.xml手工字典中字形相似度最高就是base.xml中的哪个数字了
- 伪代码如下(自己是用python转化成xml文件之后使用java实现的,具体代码太多了就不贴出来了)
int weight = 0
ifabs(base[i][0] - test1[i][0]) <80andabs(base[i][1] - test1[i][1]) <80:
++weight
- 核心思想就是求字形的相似度weight, 权重最高的数字就是最终的答案。
最新猫眼电影反爬虫解密相关推荐
- python调用woff_GitHub - zergtant/python-maoyan-spider: woff-xml解码 “猫眼网反爬虫机制” 的爬虫。...
猫眼网反爬虫策略的处理 2018/12/7测试有效 注意:爬取频繁之后,会根据mac与ip地址封禁,修改为局域网其他ip后,大概5-6次修改,就会封网关 [目录] 一.引入问题 可以看到,猫眼网电影评 ...
- Python爬虫:猫眼电影反爬—动态字体处理(2020)
2020年5月25日更新,在爬了几百条后发现,有少部分数据会出错,出错概率很小.目前推测其原因是因为欧氏距离在对于(-1,0)和(0,1)这种数据计算结果差异不大的原因.有精度需求的建议改用别的距离计 ...
- 爬取TOP100榜猫眼电影信息 爬虫实战
写在前面 最近在学爬虫,跟着崔庆才大佬的个人网站学习. 今天跟着做了一个爬虫来爬取猫眼电影top100榜的电影信息.其中遇到了一些问题,这里就写成博客记录下来. 遇到的问题 反爬虫机制:在进行html ...
- Python3 网络爬虫 简易的猫眼电影排行榜爬虫
import requests import urllib import re#首先获得请求一个界面,这是一个通用的代码,包括伪装浏览器,状态码验证等.def get_one_page(url):he ...
- 如何利用 C# + Python 破解猫眼电影的反爬虫机制?
在 如何利用 C# 爬取「猫眼电影:最受期待榜」及对应影片信息! 这篇图文中可以看到猫眼电影对"本月新增想看人数" 和 "总想看人数"进行了字符集加密. 在 如 ...
- 如何利用 C# 爬取「猫眼电影:国内票房榜」及对应影片信息!
以前我写过一些爬取猫眼电影数据的图文: 如何利用 C# 爬取「猫眼电影专业版:票房」数据? 如何利用 C# 爬取「猫眼电影:热映口碑榜」及对应影片信息? 如何利用 C# 爬取「猫眼电影:最受期待榜」及 ...
- Python爬虫-猫眼电影《冰雪奇缘2》评论数据的可视化分析
[TPython爬虫-猫眼电影<冰雪奇缘2>评论数据的可视化分析 项目简介 爬虫,称为网页蜘蛛或网络机器人,用于自动获取互联网上的信息.我通过python爬虫来爬取猫眼电影的评论,对最新热 ...
- 【崔庆才教材】《Python3网络爬虫开发实战》3.4爬取猫眼电影排行代码更正(绕过美团验证码)
前情提要 最近有七八个小伙伴私信问我说崔大神的<Python3网络爬虫开发实战>教材中 "3.4爬取猫眼电影排行" 一节的代码目前不能用. 首先附上崔大神的github ...
- 利用requests库抓取猫眼电影排行
文章目录 1.抓取目标 2.准备工作 3.抓取分析 4.抓取首页 5.正则提取 6.写入文件 7.整合代码 8.分页爬取 9.运行结果 10.本节代码 最近刚开始了解爬虫,学习了一下基本库的使用.跟着 ...
最新文章
- boost::log::sinks::unlocked_sink用法的测试程序
- 截取最后一个下划线前面的字符
- [慢查优化]联表查询注意谁是驱动表 你搞不清楚谁join谁更好时请放手让mysql自行判定...
- 2007-11-22 21:24 大端(Big Endian)与小端(Little Endian)详解
- 数据分析的五个阶段及价值
- 苹果运营商中移动苹果互盼“在一起” 最快Q3推4G移动版iPhone
- 操作系统 第二部分 进程管理(五)
- UBUNTU使用GITHUB
- 二极管正向浪涌测试系统
- python+neo4j ,Dota2自走棋,小型知识图谱构建
- Freemarker - 根据模板动态生成word文档
- Wavel Sequence HDU - 6078 (dp)
- 河北软件职业技术学院计算机应用工程系,河北软件职业技术学院第四届模特大赛举办成功...
- 支付宝积分兑换的扫地机器人好用_如何选购扫地机器人?
- 学习新的计算机语言的方法
- Excel 单元格中插入附件
- 关于舆情系统的“准”
- 要嫁就嫁个37度男人
- Energy 收购 VDD Tech
- 关于联通手机营业厅中的在线销户,大家有什么想说的?