大家好，我是不温卜火，是一名计算机学院大数据专业大三的学生，昵称来源于成语—不温不火，本意是希望自己性情温和。作为一名互联网行业的小白，博主写博客一方面是为了记录自己的学习过程，另一方面是总结自己所犯的错误希望能够帮助到很多和自己一样处于起步阶段的萌新。但由于水平有限，博客中难免会有一些错误出现，有纰漏之处恳请各位大佬不吝赐教！暂时只在csdn这一个平台进行更新，博客主页：https://buwenbuhuo.blog.csdn.net/。

PS：由于现在越来越多的人未经本人同意直接爬取博主本人文章，博主在此特别声明：未经本人允许，禁止转载！！！

推荐
一、分析网页
- 1.1 尝试获取网页内容
- 1.2 分析网页(调试界面发现问题)
- 1.3 分析字体
- 1.4 下载字体
二、如何查看woff文件
- 2.1 下载
- 2.2 打开woff文件
三、python读取woff
四、解析数据
- 4.1 无加密数据解析
- - 1. 店铺名称、URL及图片
  - 2. 星级
- 4.2 加密数据解析
- - 1. 评论数
  - 2. 人均消费
  - 3. 商品类型
  - 4. 区域地址
  - 5. 详细地址
五、完整代码
六、运行结果

在上篇文章中我们已经讲了js加密，这个需要使用者有基本的js阅读和调试能力。但是不一定都解决所有问题，不过可以提供这样的流程和思路。

那么接下来我们再来看一种加密，css加密，这里我们以大众点评为例。

一、分析网页

大众点评：https://www.dianping.com/

1.1 尝试获取网页内容

我们打开后随便输入个搜索内容，在此我们以洗浴为例。我们可以看到如下图

图中的导航栏我们看到最后的洗浴是中文。那么这个时候我们就要有作为一名爬虫爱好者的敏锐性，我们如果发现url中存在中文的话就需要立马想到url编码和解密。如果不进行解密的话，我们直接使用是无法的到结果的。如果不信的话，博主在此给出测试。

首先，我们先把URL复制出来

https://www.dianping.com/search/keyword/166/0_%E6%B4%97%E6%B5%B4

我们可以看到中文复制出来就是一堆乱码，然后我们测试看能不能把内容输出出来。代码如下：

import requests
from urllib.parse import quote,unquoteurl = "https://www.dianping.com/search/keyword/166/0_%E6%B4%97%E6%B5%B4"
headers = {"user-agent": "Mozilla/5.0 (Windows NT 6.1) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/55.0.2883.87 Safari/537.36",
}
response = requests.get(url=url,headers=headers)
print(response.content.decode("utf-8"))

下面我们来看下结果，并查看是否存在有巴厘岛温泉洗浴

我们通过查看并没有得到我们所预想的内容，这就代表我们尝试打印内容失败了。这个时候我们就需要解析那堆乱码。想要解析在Python中很简单，代码如下：

from urllib.parse import quote,unquotewd = "洗浴"
print(quote(wd))
print(unquote("%E6%B4%97%E6%B5%B4"))

爬虫入门经典(二十一) | 破解CSS加密之爬取大众点评相关推荐

爬虫入门经典(二十) | 破解JS加密之有道翻译
大家好,我是不温卜火,是一名计算机学院大数据专业大三的学生,昵称来源于成语-不温不火,本意是希望自己性情温和.作为一名互联网行业的小白,博主写博客一方面是为了记录自己的学习过程,另一方面是总结自己 ...
爬虫入门经典(九) | 简单一文教你如何爬取扇贝单词
大家好,我是不温卜火,是一名计算机学院大数据专业大三的学生,昵称来源于成语-不温不火,本意是希望自己性情温和.作为一名互联网行业的小白,博主写博客一方面是为了记录自己的学习过程,另一方面是总结自己 ...
爬虫入门经典(十) | 一文带你快速爬取网易云音乐
大家好,我是不温卜火,是一名计算机学院大数据专业大三的学生,昵称来源于成语-不温不火,本意是希望自己性情温和.作为一名互联网行业的小白,博主写博客一方面是为了记录自己的学习过程,另一方面是总结自己 ...
爬虫入门经典(八) | 一文带你快速爬取股吧
大家好,我是不温卜火,是一名计算机学院大数据专业大三的学生,昵称来源于成语-不温不火,本意是希望自己性情温和.作为一名互联网行业的小白,博主写博客一方面是为了记录自己的学习过程,另一方面是总结自己 ...
爬虫实战（二）—利用requests、selenium爬取王者官网、王者营地APP数据及pymongo详解
概述可关注微信订阅号 loak 查看实际效果. 代码已托管github,地址为:https://github.com/luozhengszj/LOLGokSpider ,包括了项目的所有代码. 本文 ...
反反爬虫之--爬取大众点评--店铺名称、详址、经纬度、评价人数、平均消费等信息
every blog every motto: Let's be loyal to our ideals, let's face reality-Chegwara 前言: 知难不难! 折腾了几天爬取大 ...
python爬虫爬取大众点评店铺简介信息
python爬虫爬取大众点评店铺简介信息写作目的: 爬取目标大众点评的保护机制应对方法还存在的问题写作目的: 今天帮朋友一个忙,要爬取一些大众点评上的数据.结果发现大众点评的防爬机制还挺多的 ...
Python，requests爬虫，使用代理爬取大众点评（含爬取结果。。。在文末）
由于在工作中,客户需要大众点评的行业数据,因此本人使用Python对大众点评网站进行了爬取,虽然在爬取之前就想好了可能会遇到的坑,但是没想要从坑中爬出来这么难.本次大众点评爬虫代码编写耗时一个月.也算 ...
python爬虫实战---爬取大众点评评论
python爬虫实战-爬取大众点评评论(加密字体) 1.首先打开一个店铺找到评论很多人学习python,不知道从何学起. 很多人学习python,掌握了基本语法过后,不知道在哪里寻找案例上手. 很多 ...

爬虫入门经典(二十一) | 破解CSS加密之爬取大众点评

目录

推荐

一、分析网页

1.1 尝试获取网页内容

爬虫入门经典(二十一) | 破解CSS加密之爬取大众点评相关推荐

最新文章

热门文章