过完年,好了,咱们接着更新反反爬虫系列

至于之前有朋友表示出一下1688呀,x宝的反反爬虫

说实在的,阿里系的反爬虫很厉害,我自愧不能搞定。

比如x宝的登录,用了selenium + chrome的朋友都会遇到滑条拖动验证失败的情况

这个就是过不了的,首先会去检查你的浏览器DOM的window.webdriver 来判断是否是人还是自动化工具

其次还会检测浏览器指纹看你的特征值,然后就是逻辑回归的算法来判断是不是爬虫。

暂时先提这么多


依旧是回顾之前的系列:

不吃夹生饭:反反爬虫系列(一)​zhuanlan.zhihu.com

不吃夹生饭:反反爬虫系列(二)​zhuanlan.zhihu.com

不吃夹生饭:反反爬虫系列(三)​zhuanlan.zhihu.com


好了,今天我们要研究的是 x车之家的字体反爬虫

难度: 中等偏上

反爬策略: html页面通过css替换,::before这个东东,拿到的html是源码,前端渲染出来的才是所见的。因此在一些关键部分字体拿到的是一个code,起到迷惑的意义。

我举个栗子吧: 小明有<span class="kw_01">头驴。

那到底是几头呢,这个反爬虫的意义就在这。

反反爬策略:解析出每个code对于的字就ok了


好了,入正题。

需求就定在我们需要去拿汽车的参数配置信息

进入页面,长酱色的

页面上看着没问题对吧

然后看html源码

并没有结构化的东西,同时发现数据放在js里,长酱色的

注意我标的红框里的东西

所以啊,就算突破一些常规的反爬虫手段,拿到html后,我指的是批量拿到所有车型的配置html后。

解析了js,拿到配置信息。

但是关键地方的字体被替换,那搞个毛啊。

所以,接下来我们需要把这个替换再换回来。

因为常规的反爬虫都是前端反爬虫,等于读书时候的习题册,答案就在习题册后面。

这时候我就又回到html里去找答案,

这仅仅是 二十多行,就看到这段,看里面觉得有猫腻对吧,

我们把这段js拿出来,格式化一下,就长这样的

接下来就是耐心的找猫腻咯

完了后发现这样一段函数

index和item有点刺眼,根据职业习惯,这个应该就是对于的字体

咱们再去搜搜 InsertRule这个关键词,然后找到这个

添加一句 console.log($index$, $temp$)

然后把整段js拿到chrome里,执行一下看看

这不就出来了么

然后从解析出来的数据里,按照index替换就行了。


大体上的思路就是这样

代码我就不提供了,偷个懒

这里笔者需要提醒的就是:

x车之家,加载的字体是动态的,同时针对具体的车系加载的字体又是固定的。

因此在采集的时候要注意不同车系加载的不同字体

最后,个人感觉,在字体反爬虫上,x车之家算是教科书级别的。

html中::before 爬虫_反反爬虫系列(四)相关推荐

  1. python突破反爬虫_【Python3爬虫】突破反爬之应对前端反调试手段

    一.前言 在我们爬取某些网站的时候,会想要打开 DevTools 查看元素或者抓包分析,但按下 F12 的时候,却出现了下面这一幕: 此时网页暂停加载,自动跳转到 Source 页面并打开了一个 JS ...

  2. python移动端爬虫_移动端爬虫工具与方法介绍

    本文来自网易云社区 作者:王涛 本文主要介绍了移动端爬虫的工具与方法,作为一个入门的大纲.没有详细介绍的也给出了本人学习过程中借鉴的资料的链接,适合对移动端爬虫感兴趣的同学入门. 一.抓包模拟 基本原 ...

  3. python从零开始学爬虫_从零开始学爬虫(爬取豆瓣),一看就会

    一. 准备工作 语言:python 编辑器:pycharm 需要导的包:bs4.re.urllib.xlwt(可以通过左上角file->settings->project->inte ...

  4. 手机写python爬虫_可以写爬虫的那么多,为什么只有python火了?

    网络爬虫: 网络爬虫(又被称为网页蜘蛛,网络机器人,在FOAF社区中间,更经常的称为网页追逐者),是一种按照一定的规则,自动地抓取万维网信息的程序或者脚本.另外一些不常使用的名字还有蚂蚁.自动索引.模 ...

  5. python 小说爬虫_用Python爬虫下载整本小说

    1 / 写在前面的话 / 如今网络上很多小说网站都有免费的小说阅读,但是它不提供下载全本的服务,目的也是为了获得更多的流量,资源君就不服了,今天刚好看到一个小说网站,就想弄本小说来看看,于是拿起电脑, ...

  6. nodejs爬虫与python爬虫_【nodeJS爬虫】前端爬虫系列 -- 小爬「博客园」

    写这篇 blog 其实一开始我是拒绝的,因为爬虫爬的就是cnblog博客园.搞不好编辑看到了就把我的账号给封了:). 言归正传,前端同学可能向来对爬虫不是很感冒,觉得爬虫需要用偏后端的语言,诸如 ph ...

  7. python 公众号爬虫_用Python爬虫爬取公众号文章

    经常有读者微信私聊我,问我有没有博客之类的,因为在手机上看公众号技术文章没有电脑上方便.确实,手机上看截图需要点击放大才能看得更清楚,代码也需要左右滑动才能看到全部.我的文章大部分都是首发于公众号,有 ...

  8. 51自学网python爬虫_自学Python爬虫实战(小白篇)

    Python的爬虫很强大,可以高效的提取网站信息,省时省力高效.瞎掰这么多犹如纸上谈兵,下面把这周的部分成果放出来. 爬取京东商品页面信息 1.我们需要从python中安装一个requests库--- ...

  9. java 图片爬虫_论坛图片爬虫的一种实现

    1背景 经常上贴图的论坛(Discuz!),每次打开帖子的时候,由于帖子的图片太多,每次都要等不少时间才能看到所有的图片,比较麻烦:同时经常会打开看过的帖子.为了解决这个问题,写了个小爬虫,定期把最新 ...

  10. python12306爬虫_【Python3爬虫】最新的12306爬虫

    一.写在前面 我在以前写过一次12306网站的爬虫,当时实现了模拟登录和查询车票,但是感觉还不太够,所以对之前的代码加以修改,还实现了一个订购车票的功能. 二.主要思路 在使用Selenium做模拟登 ...

最新文章

  1. 数据库设计三大范式和ER模型
  2. 16-爬虫之scrapy框架手动请求发送实现全站数据爬取03
  3. 找某個ColumnName在那些Tables
  4. 【最详细】数据结构(C语言版 第2版)第三章课后习题答案 严蔚敏 等 编著
  5. fedora 16 面部显示
  6. html5布局总结,HTML5网页布局的总结
  7. JavaScript 监听手机端的touch滑动事件(滑动手势)
  8. Android2D绘图四
  9. 建立索引为什么能加快查询速度 【转】
  10. 想请问下PDF双面打印时(打印机自动双面打印)为什么反面那页的内容是倒过来的,应该怎么设置?...
  11. c语言pow函数原型_c语言中的pow()函数怎么用
  12. Redundant Paths(边双连通分量缩点+思维构造)
  13. python简单实现一个数字动态进度条
  14. Fedora Firefox flash-player插件安装
  15. 联想v360安装linux双系统,联想V360在WIN7下安装XP双系统完美运行攻略.doc
  16. Twitter开发者账号【推特开发者文档系列10】——API参考索引
  17. shell学习之引号
  18. XSLT基础 XSL 与 XSLT
  19. IP地址后面跟/(斜线)+数字含义
  20. 百度 google 必应

热门文章

  1. linux下配置oracle 10G EM Database Console
  2. 《你不知道的Javascript--上卷 学习总结》(原型)
  3. 为智能手机VR体验而生,ARM公布最新处理器架构
  4. 30K 月薪运维工程师面试考什么?滴滴17年春招笔试题
  5. 这些MySQL配置“修改条令”,你有必要熟识默记!
  6. SQL Server-聚焦SNAPSHOT基于行版本隔离级别详解(三十)
  7. debugInit.c tomcat启动错误
  8. Android 图像合成技术Xformodes图片剪裁
  9. 你真的理解“吃亏是福”么?
  10. IP地址不够了,有办法吗?