python爬大众点评手机号_Python爬虫丨大众点评数据爬虫教程（1）

方式二：需要安装fontTools包，没安装的请(pip install fontTools)

from fontTools.ttLib import TTFont

def get_xml(self):

font = TTFont('dzdp.woff')

font.saveXML('dzdp.xml')

执行上述方法(和脚本放在同一目录下，改好名字)，就会得到一个xml文件，然后用工具打开这个xml文件，直接全局搜索eeb5,很快就会定位到这么一行。从而就会很清楚的了解到。页面中的0xeeb5和ttf文件中的unieeb5是意义对应关系。也就再次证明了0xxeb5就是数字3

构造映射字典

从刚才的页面解析中，我们已经明白了“\ueeb5”是3，“\ue753”是7，那么咱们再次在页面中找到其他的相关数字，【0-9】十个数字很容易就组合出来了。记住，1不需要重构，。 self.woff = {

"\uf0b6": "0",

# "": "1",

"\uf802": "2",

"\ueeb5": "3",

"\ueb5e": "4",

"\uf508": "5",

"\ue867": "6",

"\ue753": "7",

"\uf0a6": "8",

"\uf506": "9",

}

不要正对着数据抄写，点评的字体svg经常改变。需要自己对应当时的情况写一下

省下的就是直接处理数据和解析数据了。

内容如下： def get_count(self, uncode_list):

try:

count = ""

for uncode in uncode_list:

uncodes_ = uncode.replace('",

"").replace(

"", "").replace("", "").split('>')

# pprint.pprint(uncodes_)

for uncs in uncodes_:

if uncs in self.woff.keys():

cc = self.woff[uncs]

else:

cc = uncs

count += cc

return count

except Exception as e:

logger.info("数字解析出现错误")

return uncode_list[0]

def run(self):

url = 'http://www.dianping.com/shanghai/ch10/r801'

html = self.get_html(url)

shop_el_list = html.css("#shop-all-list li")

for shop_info in shop_el_list:

item = {}

shop_name = shop_info.css("div.txt div.tit a::attr(title) ").extract_first()

item["名称"] = shop_name

score = shop_info.css("div.txt div.comment div.nebula_star div.star_score::text").extract_first()

item["评分"] = score

review_num = shop_info.css("div.txt div.comment>a.review-num > b ").extract()

item["评价数"] = self.get_count(review_num)

mean_price = shop_info.css("div.txt div.comment>a.mean-price > b ").extract()

item["人均花费"]=self.get_count(mean_price)

# item["类型"]

# item["地址"]

recommend = shop_info.css("div.txt div.recommend>a::text").extract()

item["推荐"] = recommend

print(item)

上述代码就是这个demo中最关键的两个内容，一个是逻辑，一个是数字解析。这里我就不费口舌进行一一解释了。同学们自己看下吧。

python爬大众点评手机号_Python爬虫丨大众点评数据爬虫教程（1）相关推荐

python用tsne降维图像_python代码实现TSNE降维数据可视化教程
TSNE降维jne免费资源网降维就是用2维或3维表示多维数据(彼此具有相关性的多个特征数据)的技术,利用降维算法,可以显式地表现数据.(t-SNE)t分布随机邻域嵌入是一种用于探索高维数据的非线性 ...
Python爬取《权力的游戏第八季》演员数据并分析
Python爬取<权力的游戏第八季>演员数据并分析数据爬取一.浏览待爬取网页二.爬取百度百科中<权力的游戏第八季度>演员表获得每个演员的链接并保存入文件三.爬取演员详细 ...
爬虫python爬取页面请求_Python网络爬虫第三弹《爬取get请求的页面数据》
一.urllib库 urllib是Python自带的一个用于爬虫的库,其主要作用就是可以通过代码模拟浏览器发送请求.其常被用到的子模块在Python3中的为urllib.request和urllib. ...
python爬取豆瓣小组_Python 爬虫实例+爬取豆瓣小组 + wordcloud 制作词云图
目标利用PYTHON爬取如下图中所有回答的内容,并且制作词云图. 用到的库 import requests # import json from PIL import Image from pyqu ...
python爬取微博内容_Python 爬虫如何机器登录新浪微博并抓取内容？
最近为了做事件分析写了一些微博的爬虫,两个大V总共爬了超70W的微博数据. 官方提供的api有爬取数量上限2000,想爬取的数据大了就不够用了... 果断撸起袖子自己动手!先简单说一下我的思路: 一. ...
python爬取控制台信息_python爬虫实战之爬取智联职位信息和博客文章信息
1.python爬取招聘信息简单爬取智联招聘职位信息 # !/usr/bin/env python # -*-coding:utf-8-*- """ @Author ...
python爬取虾米音乐_Python爬取620首虾米歌曲，揭秘五月天为什么狂吸粉？！
最近两天,我被朋友圈的五月天粉丝(五迷)疯狂刷屏,"五月天永远陪你到20岁""演唱会即视感",这些字眼让我恨不得马上奔到电影院打卡. 作为五迷,我是满怀激情地在 ...
python爬取虾米音乐_Python 爬取 620 首虾米歌曲，揭秘五月天为什么狂吸粉？！
原标题:Python 爬取 620 首虾米歌曲,揭秘五月天为什么狂吸粉?! 来源:Yura不说数据说作者 :Yura 最近两天,我被朋友圈的五月天粉丝(五迷)疯狂刷屏,"五月天永远陪你到2 ...
python爬取小说章节信息用pygame进行数据显示_爬虫不过如此（python的Re 、Requests、BeautifulSoup 详细篇）...
网络爬虫(又被称为网页蜘蛛,网络机器人,在FOAF社区中间,更经常的称为网页追逐者),是一种按照一定的规则,自动地抓取万维网信息的程序或者脚本. 爬虫的本质就是一段自动抓取互联网信息的程序,从网络获取 ...
python爬取歌曲评论_python 爬取歌曲评论的简单示例
这篇文章主要为大家详细介绍了python 爬取歌曲评论的简单示例,具有一定的参考价值,可以用来参考一下. 感兴趣python 爬取歌曲评论的简单示例的小伙伴,下面一起跟随512笔记的小编罗X来看看吧. ...

python爬大众点评手机号_Python爬虫丨大众点评数据爬虫教程（1）

python爬大众点评手机号_Python爬虫丨大众点评数据爬虫教程（1）相关推荐

最新文章

热门文章