前言:
大众点评的评论信息做了前端字体加密,在PC端的展示数据是通过CSS来控制的,从网页上看不出来太大的区别,但是用普通的脚本取获取时,会发现数据是获取不到的,具体的源代码是下面这样的:

部分字体被标签包含,实际它是一张svg背景图,用css样式控制雪花图显示加载,并且可以看到他的css的background-image属性,可自行更改看看效果

这里我们看到了jazj3i这个变量对应的两个像素值(-163.0px, -89.0px)。这很重要,先记下来。

在这里我们看到了一个链接。
url(//s3plus.meituan.net/v1/mss_0a06a471f9514fc79c981b5466f56b91/svgtextcss/89f6aae013bd4d86187e127ed06c904d.svg)

你会发现,返回的是一些数字。

现在直接看源代码:可以看到这里面的几个关键数字:font-size:字体大小;还有y的值,y是个阈值,起的是个控制的作用。
jazj3i这个变量对应的两个像素值(-163.0px, -89.0px),前面的是控制用偏移量,后面的是控制用哪一段的数字集合,同时这里的值应该是4;

这里的值是72<89<=113,所以使用第三个段的数字集合;

因为font-size:12px,所以用163/12=13.58,向下取整13,那么我们数一下第13个数字是啥(从0开始数),没错,是4,和预期一样。

所以,这一反爬的思路就是:
1获取评论部分的完整HTML样式,
2 获取css样式,样式在源码的位置,如下图,我们需要的是每个span标签里的class属性值,因为它对应background坐标信息。
3. 从css样式中动态取svg图片链接,生成字典库,然后用第二步的css坐标经过处理,查找真实字所对应的值,并返回最终评论数





你会发现这个网页上不同的字段是由不同的css段来进行控制的,所以要找到这个评论数据对应的tag,在这里返回的值为jpz;而在获取地址时,tag就是wnc-;

代码

大众点评评论抓取-CSS加密破解相关推荐

  1. 大众点评评论抓取-加密评论信息完整抓取

    前言: 之前写的抓取大众的商家信息和点评评论星级,前两篇博文可以自行查阅,后面经常有人问我评论信息怎么抓取,因为以前评论部分没有加密,如今大众点评的评论信息做了前端字体加密,因此一般不会完整的抓取到信 ...

  2. No.2 大众点评评论爬取

    大众点评评论爬取 一.简介 网址:http://www.dianping.com/shop/G41gaJfqGBICtiVY 效果:爬取评论 使用框架:selenium.requests.re 难度系 ...

  3. 大众点评 爬虫抓取 数字文字解密

    分析网页内容 原网址:https://www.dianping.com/zhengzhou/ch0 大家在抓取网页的时候会遇到各种问题,比如字体加密,但是当我爬取大众点评网站的时候发现,它里面的字体以 ...

  4. 大众点评坐标抓取php,如何抓取(采集)大众点评网的坐标(经纬度)信息

    发布时间:2011-11-10 大众点评的地图位置很精确,但从HTML源码中却找不到坐标(经纬度)信息. 利用地址加载地图往往有比较大的偏差,从这一点上分析它肯定是利用的坐标(经纬度)信息. 分析JS ...

  5. 爬虫-大众点评评论信息(思路)

    Python爬虫-爬取大众点评评论信息(CSS映射) 正常页面显示数据为: 而打开开发者工具每条评论的个别字是通过标签替换的 部分字体被svgmtsi标签包含,实际上是一张svg背景图,通过类选择器进 ...

  6. python爬虫实战---爬取大众点评评论

    python爬虫实战-爬取大众点评评论(加密字体) 1.首先打开一个店铺找到评论 很多人学习python,不知道从何学起. 很多人学习python,掌握了基本语法过后,不知道在哪里寻找案例上手. 很多 ...

  7. mysql 文本 挖掘_GitHub - myseve/dianping_textmining: 大众点评评论文本挖掘,包括点评数据爬取、数据清洗入库、数据分析、评论情感分析等的完整挖掘项目...

    大众点评评论文本挖掘 [TOC] 一.爬虫 整体思路 爬取大众点评十大热门糖水店的评论,爬取网页后从html页面中把需要的字段信息(顾客id.评论时间.评分.评论内容.口味.环境.服务.店铺ID)提取 ...

  8. mysql 文本 挖掘_GitHub - cwff520/dianping_textmining: 大众点评评论文本挖掘,包括点评数据爬取、数据清洗入库、数据分析、评论情感分析等的完整挖掘项目...

    大众点评评论文本挖掘 [TOC] 一.爬虫 整体思路 爬取大众点评十大热门糖水店的评论,爬取网页后从html页面中把需要的字段信息(顾客id.评论时间.评分.评论内容.口味.环境.服务.店铺ID)提取 ...

  9. mysql 文本挖掘_GitHub - HuiHuiT/dianping_textmining: 大众点评评论文本挖掘,包括点评数据爬取、数据清洗入库、数据分析、评论情感分析等的完整挖掘项目...

    大众点评评论文本挖掘 [TOC] 一.爬虫 整体思路 爬取大众点评十大热门糖水店的评论,爬取网页后从html页面中把需要的字段信息(顾客id.评论时间.评分.评论内容.口味.环境.服务.店铺ID)提取 ...

最新文章

  1. [asp.net core]SignalR一个例子
  2. Memcached、Redis OR Tair
  3. linux进程的堆栈空间_代码段(指令,只读)、数据段(静态变量,全局变量)、堆栈段(局部变量)、栈【转】...
  4. window下搭建虚拟Linux操作系统
  5. mysql整站源码安装_MySQL入门01-MySQL源码安装
  6. 嵌入式linux tftp rpm,嵌入式linux的tftp配置
  7. 麒麟990 5G获外媒好评:华为Mate30系列有望引领5G时代新体验
  8. zabbix--基础概念及原理
  9. timer计时 wpf_『WPF』Timer的使用
  10. Splunk基础教程手册
  11. android lt;webview,Android WebView使用基础 – 圣骑士wind – 博客园
  12. 基于Redis的分布式限流器Java实现
  13. 如何设置和取消Mac电脑的开机密码?
  14. java8 steam流在当前数据对象上的操作。判断list中的属性值是否符合条件或者不为空,后赋值另一个属性的操作
  15. http协议工作过程
  16. python编写随机获取ip免费调用有道翻译
  17. 山地自行车系统的组成部分及论如何自己组装一台山地车
  18. Java是什么?我们为什么要学习Java?
  19. 如何用键盘控制windows窗口移动
  20. Linux 用户管理工具介绍

热门文章

  1. 1+3+5+....+99的和为
  2. lucene使用IndexWriter时遇到LockObtainFailedException: Lock obtain timed out 异常原因及解决办法
  3. 2022-2023年度江苏省职业院校技能大赛“网络安全”赛项中职组圆满成功
  4. 华为od统一考试B卷【分月饼】C++ 实现
  5. 华为机试C语言-找到比自己强的人数
  6. “adb”不是内部或外部命令,也不是可运行的程序或批处理文件
  7. 南阳理工学院计算机科学与技术分数线,2017南阳理工计算机科学与技术分数
  8. python3小说爬虫之起点女生网
  9. itext操作word,设置页眉页脚,html转word
  10. React之ref的高阶用法