python爬虫反爬 css 知乎专栏_反反爬虫系列(四)

过完年，好了，咱们接着更新反反爬虫系列

至于之前有朋友表示出一下1688呀，x宝的反反爬虫

说实在的，阿里系的反爬虫很厉害，我自愧不能搞定。

比如x宝的登录，用了selenium + chrome的朋友都会遇到滑条拖动验证失败的情况

这个就是过不了的，首先会去检查你的浏览器DOM的window.webdriver 来判断是否是人还是自动化工具

其次还会检测浏览器指纹看你的特征值，然后就是逻辑回归的算法来判断是不是爬虫。

暂时先提这么多

依旧是回顾之前的系列:不吃夹生饭：反反爬虫系列(一)zhuanlan.zhihu.com不吃夹生饭：反反爬虫系列(二)zhuanlan.zhihu.com不吃夹生饭：反反爬虫系列(三)zhuanlan.zhihu.com

好了，今天我们要研究的是 x车之家的字体反爬虫

难度：中等偏上

反爬策略: html页面通过css替换，::before这个东东，拿到的html是源码，前端渲染出来的才是所见的。因此在一些关键部分字体拿到的是一个code，起到迷惑的意义。

我举个栗子吧：小明有头驴。

那到底是几头呢，这个反爬虫的意义就在这。

反反爬策略：解析出每个code对于的字就ok了

好了，入正题。

需求就定在我们需要去拿汽车的参数配置信息

进入页面，长酱色的

页面上看着没问题对吧

然后看html源码

并没有结构化的东西，同时发现数据放在js里，长酱色的

注意我标的红框里的东西

所以啊，就算突破一些常规的反爬虫手段，拿到html后，我指的是批量拿到所有车型的配置html后。

解析了js，拿到配置信息。

但是关键地方的字体被替换，那搞个毛啊。

所以，接下来我们需要把这个替换再换回来。

因为常规的反爬虫都是前端反爬虫，等于读书时候的习题册，答案就在习题册后面。

这时候我就又回到html里去找答案，

这仅仅是二十多行，就看到这段，看里面觉得有猫腻对吧，

我们把这段js拿出来，格式化一下，就长这样的

接下来就是耐心的找猫腻咯

完了后发现这样一段函数

index和item有点刺眼，根据职业习惯，这个应该就是对于的字体

咱们再去搜搜 InsertRule这个关键词，然后找到这个

添加一句 console.log($index$, $temp$)

然后把整段js拿到chrome里，执行一下看看

这不就出来了么

然后从解析出来的数据里，按照index替换就行了。

大体上的思路就是这样

代码我就不提供了，偷个懒

这里笔者需要提醒的就是：

x车之家，加载的字体是动态的，同时针对具体的车系加载的字体又是固定的。

因此在采集的时候要注意不同车系加载的不同字体

最后，个人感觉，在字体反爬虫上，x车之家算是教科书级别的。

python爬虫反爬 css 知乎专栏_反反爬虫系列(四)相关推荐

python爬虫反爬 css 知乎专栏_python爬虫反反爬 | 像猫眼电影、大众点评等自定义 css 加密字体怎么破？...
我们上次说了如何建立反反爬当时还新建一个简单的帅b网页具体可以戳以下链接现在你已经知道了对方是如何自定义字体加密的了你要想去反反爬你就要先站在对方的角度去思考问题有句话这么说来着 &qu ...
python爬虫知乎图片_python爬虫（爬取知乎答案图片）
python爬虫(爬取知乎答案图片) 1.⾸先,你要在电脑⾥安装 python 的环境我会提供2.7和3.6两个版本的代码,但是本⽂只以python3.6版本为例. 安装完成后,打开你电脑的终端(T ...
python爬取知乎文章_大佬分享Python编程实现爬取知乎用户信息的例子
有一天 , 我发现我心仪已久的妹子在朋友圈里分享了知乎专栏的文章 , 就知道她也刷知乎 . 如果在知乎上关注她 , 我就能知道 , 她最近关注什么 , 心里想些什么 , 了解了解她喜欢的方面 , 还能 ...
python爬虫怎么爬同一个网站的多页数据-请问爬虫如何爬取动态页面的内容？
现在网页大多是动态网页,尤其是内容丰富,值得爬取的网站,几乎无一例外是动态的,比如狗东.淘宝和知乎,而且还有不少反爬手段,这些都大大提升了爬虫难度,尤其是淘宝,为了反爬不惜影响到正常用户使用. 面对这 ...
Python爬虫实战：手把手教你字体反爬 CSS反爬练习猿人学比赛题目四题详解
题目地址:http://match.yuanrenxue.com/match/4 第四题接口没有设置任何反爬,直接获取数据即可可以看到返回的是一个json,其中的info字段是一段html文本,格式 ...
利用python爬取知乎评论_一个简单的python爬虫,爬取知乎
一个简单的python爬虫,爬取知乎主要实现爬取一个收藏夹里所有问题答案下的图片文字信息暂未收录,可自行实现,比图片更简单具体代码里有详细注释,请自行阅读项目源码: 1 # -*- c ...
python爬取知乎评论_从零开始写Python爬虫 --- 爬虫应用：IT之家热门段子（评论）爬取...
不知道这里有没有喜欢刷it之家的小伙伴,我反正每天早上醒来第一件事就是打开it之家,看看有没有新鲜的段子逃~ 其实这次是要来抓取it之家的热门评论,因为数量较多(上万),所以我们这次采用MongoD ...
python scrapy框架爬取知乎提问信息
前文介绍了python的scrapy爬虫框架和登录知乎的方法. 这里介绍如何爬取知乎的问题信息,并保存到mysql数据库中. 首先,看一下我要爬取哪些内容: 如下图所示,我要爬取一个问题的6个信息: ...
爬虫-反爬一：boss直聘cookies反爬怎么治
文章目录絮叨一下分析开撸 1．新建爬虫 2.分析页面布局 3.步骤 1.设置middlewares以及settings(核心) 2.boss_spider.py 3.item.py 4.运行 5 ...

python爬虫反爬 css 知乎专栏_反反爬虫系列(四)

python爬虫反爬 css 知乎专栏_反反爬虫系列(四)相关推荐

最新文章

热门文章

python爬虫反爬 css 知乎 专栏_反反爬虫系列(四)

python爬虫反爬 css 知乎 专栏_反反爬虫系列(四)相关推荐

最新文章

热门文章

python爬虫反爬 css 知乎专栏_反反爬虫系列(四)

python爬虫反爬 css 知乎专栏_反反爬虫系列(四)相关推荐