爬虫入门经典(二十一) | 破解CSS加密之爬取大众点评
大家好,我是不温卜火,是一名计算机学院大数据专业大三的学生,昵称来源于成语—
不温不火
,本意是希望自己性情温和
。作为一名互联网行业的小白,博主写博客一方面是为了记录自己的学习过程,另一方面是总结自己所犯的错误希望能够帮助到很多和自己一样处于起步阶段的萌新。但由于水平有限,博客中难免会有一些错误出现,有纰漏之处恳请各位大佬不吝赐教!暂时只在csdn这一个平台进行更新,博客主页:https://buwenbuhuo.blog.csdn.net/。
PS:由于现在越来越多的人未经本人同意直接爬取博主本人文章,博主在此特别声明:未经本人允许,禁止转载!!!
目录
- 推荐
- 一、分析网页
- 1.1 尝试获取网页内容
- 1.2 分析网页(调试界面发现问题)
- 1.3 分析字体
- 1.4 下载字体
- 二、如何查看woff文件
- 2.1 下载
- 2.2 打开woff文件
- 三、python读取woff
- 四、解析数据
- 4.1 无加密数据解析
- 1. 店铺名称、URL及图片
- 2. 星级
- 4.2 加密数据解析
- 1. 评论数
- 2. 人均消费
- 3. 商品类型
- 4. 区域地址
- 5. 详细地址
- 五、完整代码
- 六、运行结果
在上篇文章中我们已经讲了js加密,这个需要使用者有基本的js阅读和调试能力。但是不一定都解决所有问题,不过可以提供这样的流程和思路。
那么接下来我们再来看一种加密,css加密,这里我们以大众点评为例。
推荐
♥各位如果想要交流的话,可以加下QQ交流群:974178910,里面有各种你想要的学习资料。♥
♥欢迎大家关注公众号【不温卜火】,关注公众号即可以提前阅读又可以获取各种干货哦,同时公众号每满1024及1024倍数则会抽奖赠送机械键盘一份+IT书籍1份哟~♥
一、分析网页
大众点评:https://www.dianping.com/
1.1 尝试获取网页内容
我们打开后随便输入个搜索内容,在此我们以洗浴为例。我们可以看到如下图
图中的导航栏我们看到最后的洗浴是中文。那么这个时候我们就要有作为一名爬虫爱好者的敏锐性,我们如果发现url中存在中文的话就需要立马想到url编码和解密。如果不进行解密的话,我们直接使用是无法的到结果的。如果不信的话,博主在此给出测试。
首先,我们先把URL复制出来
https://www.dianping.com/search/keyword/166/0_%E6%B4%97%E6%B5%B4
我们可以看到中文复制出来就是一堆乱码,然后我们测试看能不能把内容输出出来。代码如下:
import requests
from urllib.parse import quote,unquoteurl = "https://www.dianping.com/search/keyword/166/0_%E6%B4%97%E6%B5%B4"
headers = {"user-agent": "Mozilla/5.0 (Windows NT 6.1) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/55.0.2883.87 Safari/537.36",
}
response = requests.get(url=url,headers=headers)
print(response.content.decode("utf-8"))
下面我们来看下结果,并查看是否存在有巴厘岛温泉洗浴
我们通过查看并没有得到我们所预想的内容,这就代表我们尝试打印内容失败了。这个时候我们就需要解析那堆乱码。想要解析在Python中很简单,代码如下:
from urllib.parse import quote,unquotewd = "洗浴"
print(quote(wd))
print(unquote("%E6%B4%97%E6%B5%B4"))
爬虫入门经典(二十一) | 破解CSS加密之爬取大众点评相关推荐
- 爬虫入门经典(二十) | 破解JS加密之有道翻译
大家好,我是不温卜火,是一名计算机学院大数据专业大三的学生,昵称来源于成语-不温不火,本意是希望自己性情温和.作为一名互联网行业的小白,博主写博客一方面是为了记录自己的学习过程,另一方面是总结自己 ...
- 爬虫入门经典(九) | 简单一文教你如何爬取扇贝单词
大家好,我是不温卜火,是一名计算机学院大数据专业大三的学生,昵称来源于成语-不温不火,本意是希望自己性情温和.作为一名互联网行业的小白,博主写博客一方面是为了记录自己的学习过程,另一方面是总结自己 ...
- 爬虫入门经典(十) | 一文带你快速爬取网易云音乐
大家好,我是不温卜火,是一名计算机学院大数据专业大三的学生,昵称来源于成语-不温不火,本意是希望自己性情温和.作为一名互联网行业的小白,博主写博客一方面是为了记录自己的学习过程,另一方面是总结自己 ...
- 爬虫入门经典(八) | 一文带你快速爬取股吧
大家好,我是不温卜火,是一名计算机学院大数据专业大三的学生,昵称来源于成语-不温不火,本意是希望自己性情温和.作为一名互联网行业的小白,博主写博客一方面是为了记录自己的学习过程,另一方面是总结自己 ...
- 爬虫实战(二)—利用requests、selenium爬取王者官网、王者营地APP数据及pymongo详解
概述 可关注微信订阅号 loak 查看实际效果. 代码已托管github,地址为:https://github.com/luozhengszj/LOLGokSpider ,包括了项目的所有代码. 本文 ...
- 反反爬虫之--爬取大众点评--店铺名称、详址、经纬度、评价人数、平均消费等信息
every blog every motto: Let's be loyal to our ideals, let's face reality-Chegwara 前言: 知难不难! 折腾了几天爬取大 ...
- python爬虫爬取大众点评店铺简介信息
python爬虫爬取大众点评店铺简介信息 写作目的: 爬取目标 大众点评的保护机制 应对方法 还存在的问题 写作目的: 今天帮朋友一个忙,要爬取一些大众点评上的数据.结果发现大众点评的防爬机制还挺多的 ...
- Python,requests爬虫,使用代理爬取大众点评(含爬取结果。。。在文末)
由于在工作中,客户需要大众点评的行业数据,因此本人使用Python对大众点评网站进行了爬取,虽然在爬取之前就想好了可能会遇到的坑,但是没想要从坑中爬出来这么难.本次大众点评爬虫代码编写耗时一个月.也算 ...
- python爬虫实战---爬取大众点评评论
python爬虫实战-爬取大众点评评论(加密字体) 1.首先打开一个店铺找到评论 很多人学习python,不知道从何学起. 很多人学习python,掌握了基本语法过后,不知道在哪里寻找案例上手. 很多 ...
最新文章
- AI找Bug,一键快速预测
- Python 之 matplotlib (十四)图中图
- 地球自转减速影响世界时 格林尼治时间或成历史
- CNN 卷积神经网络(卷积、池化)长度、宽度、深度计算
- 接口,抽象类与内部类
- Vue的axios与ajax的区别:axios是对ajax的封装
- python 图像无缝拼接,OpenCV Python 系列教程3 - Core 组件
- for循环和数组练习
- 【前端芝士树】Javascript的原型与原型链
- jzoj1266,P1879-[USACO06NOV]玉米田Corn Fields【状态压缩,dp】
- 深入理解Sqlserver索引
- kubernetes之flannel 网络分析
- spring之集合注入
- 数据库数据变大会导致查询慢_是什么导致数据库变慢?
- 在线Excel文件解析转换成JSON格式
- .NET Micro Framework开发板用户简明手册(v3.0)
- 解决servlet中get方式中中文乱码问题前驱(一):装饰者模式再理解
- 安装 | Android studio 3.5.2安装教程
- 老肖有话说:如期而至的Swarm新工具Crane开源解读
- java学生信息管理系统代码_java学生信息管理系统源代码