过完年,好了,咱们接着更新反反爬虫系列

至于之前有朋友表示出一下1688呀,x宝的反反爬虫

说实在的,阿里系的反爬虫很厉害,我自愧不能搞定。

比如x宝的登录,用了selenium + chrome的朋友都会遇到滑条拖动验证失败的情况

这个就是过不了的,首先会去检查你的浏览器DOM的window.webdriver 来判断是否是人还是自动化工具

其次还会检测浏览器指纹看你的特征值,然后就是逻辑回归的算法来判断是不是爬虫。

暂时先提这么多

依旧是回顾之前的系列:不吃夹生饭:反反爬虫系列(一)​zhuanlan.zhihu.com不吃夹生饭:反反爬虫系列(二)​zhuanlan.zhihu.com不吃夹生饭:反反爬虫系列(三)​zhuanlan.zhihu.com

好了,今天我们要研究的是 x车之家的字体反爬虫

难度: 中等偏上

反爬策略: html页面通过css替换,::before这个东东,拿到的html是源码,前端渲染出来的才是所见的。因此在一些关键部分字体拿到的是一个code,起到迷惑的意义。

我举个栗子吧: 小明有头驴。

那到底是几头呢,这个反爬虫的意义就在这。

反反爬策略:解析出每个code对于的字就ok了

好了,入正题。

需求就定在我们需要去拿汽车的参数配置信息

进入页面,长酱色的

页面上看着没问题对吧

然后看html源码

并没有结构化的东西,同时发现数据放在js里,长酱色的

注意我标的红框里的东西

所以啊,就算突破一些常规的反爬虫手段,拿到html后,我指的是批量拿到所有车型的配置html后。

解析了js,拿到配置信息。

但是关键地方的字体被替换,那搞个毛啊。

所以,接下来我们需要把这个替换再换回来。

因为常规的反爬虫都是前端反爬虫,等于读书时候的习题册,答案就在习题册后面。

这时候我就又回到html里去找答案,

这仅仅是 二十多行,就看到这段,看里面觉得有猫腻对吧,

我们把这段js拿出来,格式化一下,就长这样的

接下来就是耐心的找猫腻咯

完了后发现这样一段函数

index和item有点刺眼,根据职业习惯,这个应该就是对于的字体

咱们再去搜搜 InsertRule这个关键词,然后找到这个

添加一句 console.log($index$, $temp$)

然后把整段js拿到chrome里,执行一下看看

这不就出来了么

然后从解析出来的数据里,按照index替换就行了。

大体上的思路就是这样

代码我就不提供了,偷个懒

这里笔者需要提醒的就是:

x车之家,加载的字体是动态的,同时针对具体的车系加载的字体又是固定的。

因此在采集的时候要注意不同车系加载的不同字体

最后,个人感觉,在字体反爬虫上,x车之家算是教科书级别的。

python爬虫反爬 css 知乎 专栏_反反爬虫系列(四)相关推荐

  1. python爬虫反爬 css 知乎 专栏_python爬虫反反爬 | 像猫眼电影、大众点评等自定义 css 加密字体怎么破?...

    我们上次说了如何建立反反爬 当时还新建一个简单的帅b网页 具体可以戳以下链接 现在你已经知道了对方是 如何自定义字体加密的了 你要想去反反爬 你就要先站在对方的角度去思考问题 有句话这么说来着 &qu ...

  2. python爬虫知乎图片_python爬虫(爬取知乎答案图片)

    python爬虫(爬取知乎答案图片) 1.⾸先,你要在电脑⾥安装 python 的环境 我会提供2.7和3.6两个版本的代码,但是本⽂只以python3.6版本为例. 安装完成后,打开你电脑的终端(T ...

  3. python爬取知乎文章_大佬分享Python编程实现爬取知乎用户信息的例子

    有一天 , 我发现我心仪已久的妹子在朋友圈里分享了知乎专栏的文章 , 就知道她也刷知乎 . 如果在知乎上关注她 , 我就能知道 , 她最近关注什么 , 心里想些什么 , 了解了解她喜欢的方面 , 还能 ...

  4. python爬虫怎么爬同一个网站的多页数据-请问爬虫如何爬取动态页面的内容?

    现在网页大多是动态网页,尤其是内容丰富,值得爬取的网站,几乎无一例外是动态的,比如狗东.淘宝和知乎,而且还有不少反爬手段,这些都大大提升了爬虫难度,尤其是淘宝,为了反爬不惜影响到正常用户使用. 面对这 ...

  5. Python爬虫实战:手把手教你 字体反爬 CSS反爬练习 猿人学比赛题目四题详解

    题目地址:http://match.yuanrenxue.com/match/4 第四题接口没有设置任何反爬,直接获取数据即可 可以看到返回的是一个json,其中的info字段是一段html文本,格式 ...

  6. 利用python爬取知乎评论_一个简单的python爬虫,爬取知乎

    一个简单的python爬虫,爬取知乎 主要实现 爬取一个收藏夹 里 所有问题答案下的 图片 文字信息暂未收录,可自行实现,比图片更简单 具体代码里有详细注释,请自行阅读 项目源码: 1 # -*- c ...

  7. python爬取知乎评论_从零开始写Python爬虫 --- 爬虫应用:IT之家热门段子(评论)爬取...

    不知道这里有没有喜欢刷it之家的小伙伴,我反正每天早上醒来第一件事就是打开it之家,看看有没有新鲜的段子 逃~ 其实这次是要来抓取it之家的热门评论,因为数量较多(上万),所以我们这次采用MongoD ...

  8. python scrapy框架爬取知乎提问信息

    前文介绍了python的scrapy爬虫框架和登录知乎的方法. 这里介绍如何爬取知乎的问题信息,并保存到mysql数据库中. 首先,看一下我要爬取哪些内容: 如下图所示,我要爬取一个问题的6个信息: ...

  9. 爬虫-反爬一:boss直聘cookies反爬怎么治

    文章目录 絮叨一下 分析 开撸 1.新建爬虫 2.分析页面布局 3.步骤 1.设置middlewares以及settings(核心) 2.boss_spider.py 3.item.py 4.运行 5 ...

最新文章

  1. 软件研发之道——知识产权
  2. 通过修改程序解决Vista/Win7/Win8下应用程序兼容性问题
  3. 074_JSON.stringify()
  4. pip和conda 换清华源
  5. 第二轮“双一流”名单:这 44 所高校有调整!
  6. Centos/Red Hat6.8 安装、配置、启动Gitlab (内网环境)
  7. xenserver6.2 内存leak故障处理
  8. 大小不固定的图片、多行文字的水平垂直居中
  9. 不能bostype没有元数据异常_EAS BOS 开发问题集锦
  10. 每天一个小异常——ssh整合空指针异常
  11. php无法加载ssh扩展,php的ssh2扩展正常安装,却无法连接目标主机
  12. Python开发Http代理服务器 - socketref,呆在autonavi.com - C++博客
  13. 2013年上半年 系统分析师 论文 真题
  14. 【STL容器讲解—栈队列】
  15. ps: 如何调出辅助线
  16. linux Permission 0644 for are too open 错误解决方案
  17. Laravel 博客开发|网站打开速度优化
  18. 编写函数求整形数组a中存储的m个不重复的整数的第k大的整数(其中m=1,1=k=m)很简单的一个思路是酱紫的:管他辣么多干啥,上来一把排序然后直接得答案...
  19. 当地图与绘画结合,竟然能迸发出这样的精彩
  20. JUDE工具类图制作

热门文章

  1. mysql找不到performance_Mysql安装完毕运行时没有mysql和performance_schema数据库_MySQL
  2. 的setinterval函数_ES6 极简教程 lt;6gt; 函数扩展
  3. CentrOS7静默安装oracle11g
  4. go设计模式之装饰器模式
  5. X86和X86_64和AMD64的由来
  6. Monthly Expense【二分】
  7. AliOS Things声源定位应用演示 1
  8. 移动端 | Vue.js对比微信小程序基础语法
  9. Mac MongoDB未正常关闭导致重启失败
  10. docker-machine指定cpu个数