html中::before 爬虫_反反爬虫系列(四)

过完年，好了，咱们接着更新反反爬虫系列

至于之前有朋友表示出一下1688呀，x宝的反反爬虫

说实在的，阿里系的反爬虫很厉害，我自愧不能搞定。

比如x宝的登录，用了selenium + chrome的朋友都会遇到滑条拖动验证失败的情况

这个就是过不了的，首先会去检查你的浏览器DOM的window.webdriver 来判断是否是人还是自动化工具

其次还会检测浏览器指纹看你的特征值，然后就是逻辑回归的算法来判断是不是爬虫。

暂时先提这么多

依旧是回顾之前的系列:

不吃夹生饭：反反爬虫系列（一）zhuanlan.zhihu.com

不吃夹生饭：反反爬虫系列(二)zhuanlan.zhihu.com

不吃夹生饭：反反爬虫系列(三)zhuanlan.zhihu.com

好了，今天我们要研究的是 x车之家的字体反爬虫

难度：中等偏上

反爬策略: html页面通过css替换，::before这个东东，拿到的html是源码，前端渲染出来的才是所见的。因此在一些关键部分字体拿到的是一个code，起到迷惑的意义。

我举个栗子吧：小明有<span class="kw_01">头驴。

那到底是几头呢，这个反爬虫的意义就在这。

反反爬策略：解析出每个code对于的字就ok了

好了，入正题。

需求就定在我们需要去拿汽车的参数配置信息

进入页面，长酱色的

页面上看着没问题对吧

然后看html源码

并没有结构化的东西，同时发现数据放在js里，长酱色的

注意我标的红框里的东西

所以啊，就算突破一些常规的反爬虫手段，拿到html后，我指的是批量拿到所有车型的配置html后。

解析了js，拿到配置信息。

但是关键地方的字体被替换，那搞个毛啊。

所以，接下来我们需要把这个替换再换回来。

因为常规的反爬虫都是前端反爬虫，等于读书时候的习题册，答案就在习题册后面。

这时候我就又回到html里去找答案，

这仅仅是二十多行，就看到这段，看里面觉得有猫腻对吧，

我们把这段js拿出来，格式化一下，就长这样的

接下来就是耐心的找猫腻咯

完了后发现这样一段函数

index和item有点刺眼，根据职业习惯，这个应该就是对于的字体

咱们再去搜搜 InsertRule这个关键词，然后找到这个

添加一句 console.log($index$, $temp$)

然后把整段js拿到chrome里，执行一下看看

这不就出来了么

然后从解析出来的数据里，按照index替换就行了。

大体上的思路就是这样

代码我就不提供了，偷个懒

这里笔者需要提醒的就是：

x车之家，加载的字体是动态的，同时针对具体的车系加载的字体又是固定的。

因此在采集的时候要注意不同车系加载的不同字体

最后，个人感觉，在字体反爬虫上，x车之家算是教科书级别的。

html中::before 爬虫_反反爬虫系列(四)相关推荐

python突破反爬虫_【Python3爬虫】突破反爬之应对前端反调试手段
一.前言在我们爬取某些网站的时候,会想要打开 DevTools 查看元素或者抓包分析,但按下 F12 的时候,却出现了下面这一幕: 此时网页暂停加载,自动跳转到 Source 页面并打开了一个 JS ...
python移动端爬虫_移动端爬虫工具与方法介绍
本文来自网易云社区作者:王涛本文主要介绍了移动端爬虫的工具与方法,作为一个入门的大纲.没有详细介绍的也给出了本人学习过程中借鉴的资料的链接,适合对移动端爬虫感兴趣的同学入门. 一.抓包模拟基本原 ...
python从零开始学爬虫_从零开始学爬虫（爬取豆瓣），一看就会
一. 准备工作语言:python 编辑器:pycharm 需要导的包:bs4.re.urllib.xlwt(可以通过左上角file->settings->project->inte ...
手机写python爬虫_可以写爬虫的那么多，为什么只有python火了？
网络爬虫: 网络爬虫(又被称为网页蜘蛛,网络机器人,在FOAF社区中间,更经常的称为网页追逐者),是一种按照一定的规则,自动地抓取万维网信息的程序或者脚本.另外一些不常使用的名字还有蚂蚁.自动索引.模 ...
python 小说爬虫_用Python爬虫下载整本小说
1 / 写在前面的话 / 如今网络上很多小说网站都有免费的小说阅读,但是它不提供下载全本的服务,目的也是为了获得更多的流量,资源君就不服了,今天刚好看到一个小说网站,就想弄本小说来看看,于是拿起电脑, ...
nodejs爬虫与python爬虫_【nodeJS爬虫】前端爬虫系列 -- 小爬「博客园」
写这篇 blog 其实一开始我是拒绝的,因为爬虫爬的就是cnblog博客园.搞不好编辑看到了就把我的账号给封了:). 言归正传,前端同学可能向来对爬虫不是很感冒,觉得爬虫需要用偏后端的语言,诸如 ph ...
python 公众号爬虫_用Python爬虫爬取公众号文章
经常有读者微信私聊我,问我有没有博客之类的,因为在手机上看公众号技术文章没有电脑上方便.确实,手机上看截图需要点击放大才能看得更清楚,代码也需要左右滑动才能看到全部.我的文章大部分都是首发于公众号,有 ...
51自学网python爬虫_自学Python爬虫实战（小白篇)
Python的爬虫很强大,可以高效的提取网站信息,省时省力高效.瞎掰这么多犹如纸上谈兵,下面把这周的部分成果放出来. 爬取京东商品页面信息 1.我们需要从python中安装一个requests库--- ...
java 图片爬虫_论坛图片爬虫的一种实现
1背景经常上贴图的论坛(Discuz!),每次打开帖子的时候,由于帖子的图片太多,每次都要等不少时间才能看到所有的图片,比较麻烦:同时经常会打开看过的帖子.为了解决这个问题,写了个小爬虫,定期把最新 ...
python12306爬虫_【Python3爬虫】最新的12306爬虫
一.写在前面我在以前写过一次12306网站的爬虫,当时实现了模拟登录和查询车票,但是感觉还不太够,所以对之前的代码加以修改,还实现了一个订购车票的功能. 二.主要思路在使用Selenium做模拟登 ...

html中::before 爬虫_反反爬虫系列(四)

html中::before 爬虫_反反爬虫系列(四)相关推荐

最新文章

热门文章