方式二: 需要安装fontTools包,没安装的请(pip install fontTools)

from fontTools.ttLib import TTFont

def get_xml(self):

font = TTFont('dzdp.woff')

font.saveXML('dzdp.xml')

执行上述方法(和脚本放在同一目录下,改好名字),就会得到一个xml文件,然后用工具打开这个xml文件,直接全局搜索eeb5,很快就会定位到这么一行。从而就会很清楚的了解到。页面中的0xeeb5和ttf文件中的unieeb5是意义对应关系。也就再次证明了0xxeb5就是数字3

构造映射字典

从刚才的页面解析中,我们已经明白了“\ueeb5”是3,“\ue753”是7,那么咱们再次在页面中找到其他的相关数字,【0-9】十个数字很容易就组合出来了。记住,1不需要重构,。 self.woff = {

"\uf0b6": "0",

# "": "1",

"\uf802": "2",

"\ueeb5": "3",

"\ueb5e": "4",

"\uf508": "5",

"\ue867": "6",

"\ue753": "7",

"\uf0a6": "8",

"\uf506": "9",

}

不要正对着数据抄写,点评的字体svg经常改变。需要自己对应当时的情况写一下

省下的就是直接处理数据和解析数据了。

内容如下: def get_count(self, uncode_list):

try:

count = ""

for uncode in uncode_list:

uncodes_ = uncode.replace('",

"").replace(

"", "").replace("", "").split('>')

# pprint.pprint(uncodes_)

for uncs in uncodes_:

if uncs in self.woff.keys():

cc = self.woff[uncs]

else:

cc = uncs

count += cc

return count

except Exception as e:

logger.info("数字解析出现错误")

return uncode_list[0]

def run(self):

url = 'http://www.dianping.com/shanghai/ch10/r801'

html = self.get_html(url)

shop_el_list = html.css("#shop-all-list li")

for shop_info in shop_el_list:

item = {}

shop_name = shop_info.css("div.txt div.tit a::attr(title) ").extract_first()

item["名称"] = shop_name

score = shop_info.css("div.txt div.comment div.nebula_star div.star_score::text").extract_first()

item["评分"] = score

review_num = shop_info.css("div.txt div.comment>a.review-num > b ").extract()

item["评价数"] = self.get_count(review_num)

mean_price = shop_info.css("div.txt div.comment>a.mean-price > b ").extract()

item["人均花费"]=self.get_count(mean_price)

# item["类型"]

# item["地址"]

recommend = shop_info.css("div.txt div.recommend>a::text").extract()

item["推荐"] = recommend

print(item)

上述代码就是这个demo中最关键的两个内容,一个是逻辑,一个是数字解析。这里我就不费口舌进行一一解释了。同学们自己看下吧。

python爬大众点评手机号_Python爬虫丨大众点评数据爬虫教程(1)相关推荐

  1. python用tsne降维图像_python代码实现TSNE降维数据可视化教程

    TSNE降维jne免费资源网 降维就是用2维或3维表示多维数据(彼此具有相关性的多个特征数据)的技术,利用降维算法,可以显式地表现数据.(t-SNE)t分布随机邻域嵌入 是一种用于探索高维数据的非线性 ...

  2. Python爬取《权力的游戏第八季》演员数据并分析

    Python爬取<权力的游戏第八季>演员数据并分析 数据爬取 一.浏览待爬取网页 二.爬取百度百科中<权力的游戏第八季度>演员表获得每个演员的链接并保存入文件 三.爬取演员详细 ...

  3. 爬虫python爬取页面请求_Python网络爬虫第三弹《爬取get请求的页面数据》

    一.urllib库 urllib是Python自带的一个用于爬虫的库,其主要作用就是可以通过代码模拟浏览器发送请求.其常被用到的子模块在Python3中的为urllib.request和urllib. ...

  4. python爬取豆瓣小组_Python 爬虫实例+爬取豆瓣小组 + wordcloud 制作词云图

    目标 利用PYTHON爬取如下图中所有回答的内容,并且制作词云图. 用到的库 import requests # import json from PIL import Image from pyqu ...

  5. python爬取微博内容_Python 爬虫如何机器登录新浪微博并抓取内容?

    最近为了做事件分析写了一些微博的爬虫,两个大V总共爬了超70W的微博数据. 官方提供的api有爬取数量上限2000,想爬取的数据大了就不够用了... 果断撸起袖子自己动手!先简单说一下我的思路: 一. ...

  6. python爬取控制台信息_python爬虫实战之爬取智联职位信息和博客文章信息

    1.python爬取招聘信息 简单爬取智联招聘职位信息 # !/usr/bin/env python # -*-coding:utf-8-*- """ @Author  ...

  7. python爬取虾米音乐_Python爬取620首虾米歌曲,揭秘五月天为什么狂吸粉?!

    最近两天,我被朋友圈的五月天粉丝(五迷)疯狂刷屏,"五月天永远陪你到20岁""演唱会即视感",这些字眼让我恨不得马上奔到电影院打卡. 作为五迷,我是满怀激情地在 ...

  8. python爬取虾米音乐_Python 爬取 620 首虾米歌曲,揭秘五月天为什么狂吸粉?!

    原标题:Python 爬取 620 首虾米歌曲,揭秘五月天为什么狂吸粉?! 来源:Yura不说数据说 作者 :Yura 最近两天,我被朋友圈的五月天粉丝(五迷)疯狂刷屏,"五月天永远陪你到2 ...

  9. python爬取小说章节信息用pygame进行数据显示_爬虫不过如此(python的Re 、Requests、BeautifulSoup 详细篇)...

    网络爬虫(又被称为网页蜘蛛,网络机器人,在FOAF社区中间,更经常的称为网页追逐者),是一种按照一定的规则,自动地抓取万维网信息的程序或者脚本. 爬虫的本质就是一段自动抓取互联网信息的程序,从网络获取 ...

  10. python爬取歌曲评论_python 爬取歌曲评论的简单示例

    这篇文章主要为大家详细介绍了python 爬取歌曲评论的简单示例,具有一定的参考价值,可以用来参考一下. 感兴趣python 爬取歌曲评论的简单示例的小伙伴,下面一起跟随512笔记的小编罗X来看看吧. ...

最新文章

  1. php地址后面拼接页码,php分页类尾部页码导航代码
  2. MSDynamicsAX2009成本处理与重估(中文)
  3. CSV文件读取和处理
  4. 空调系统故障类型与故障案例集
  5. 键盘录入学生信息,保存到集合中
  6. 【C++深度剖析教程26】父子间的冲突
  7. 记录一下flex布局左边固定,右边100%
  8. (转)淘淘商城系列——中文分析器IK-Analyzer的使用
  9. 手机号归属地 mysql脚本_示例演示手机号归属地查询功能
  10. 运维学习:常用运维工具
  11. MySQL中文乱码解决方案
  12. 使用C#实现Rundll32程序功能
  13. 自定义注解,实现业务处理
  14. Spyder的安装与汉化
  15. 转载为什么USART的RX和TX和SPI的MISO、MOSI都被配置成推挽输出,他们还能正常工作
  16. SVN异常处理——禁止访问
  17. MATLAB识别实验,Matlab在图像处理与目标识别方面的应用实验
  18. 高可用架构之高可用的应用和服务
  19. GHost++ CB (Custom Build) MOD
  20. 台式计算机反复启动,台式机总是一直重启怎么办

热门文章

  1. 监听菜单按键实现长按触发
  2. Python入门:条件语句
  3. Java高频面试题解析,直戳面试官痛点,多家互联网大厂Offer等你拿
  4. 2023最新考研计划清单
  5. 【Methodot低代码教程系列03】——零代码十分钟制作电影票房管理后台
  6. 全球PM2.5空气颗粒污染分布数据地图
  7. CSS3伸缩布局注意点——携程网案例
  8. PLS-DA分析R实现
  9. php如果单数前面加0,php左边用0填充补齐的两种方法
  10. 1640_MIT 6.828 fork函数的功能以及相关代码分析