python爬大众点评手机号_Python爬虫丨大众点评数据爬虫教程(1)
方式二: 需要安装fontTools包,没安装的请(pip install fontTools)
from fontTools.ttLib import TTFont
def get_xml(self):
font = TTFont('dzdp.woff')
font.saveXML('dzdp.xml')
执行上述方法(和脚本放在同一目录下,改好名字),就会得到一个xml文件,然后用工具打开这个xml文件,直接全局搜索eeb5,很快就会定位到这么一行。从而就会很清楚的了解到。页面中的0xeeb5和ttf文件中的unieeb5是意义对应关系。也就再次证明了0xxeb5就是数字3
构造映射字典
从刚才的页面解析中,我们已经明白了“\ueeb5”是3,“\ue753”是7,那么咱们再次在页面中找到其他的相关数字,【0-9】十个数字很容易就组合出来了。记住,1不需要重构,。 self.woff = {
"\uf0b6": "0",
# "": "1",
"\uf802": "2",
"\ueeb5": "3",
"\ueb5e": "4",
"\uf508": "5",
"\ue867": "6",
"\ue753": "7",
"\uf0a6": "8",
"\uf506": "9",
}
不要正对着数据抄写,点评的字体svg经常改变。需要自己对应当时的情况写一下
省下的就是直接处理数据和解析数据了。
内容如下: def get_count(self, uncode_list):
try:
count = ""
for uncode in uncode_list:
uncodes_ = uncode.replace('",
"").replace(
"", "").replace("", "").split('>')
# pprint.pprint(uncodes_)
for uncs in uncodes_:
if uncs in self.woff.keys():
cc = self.woff[uncs]
else:
cc = uncs
count += cc
return count
except Exception as e:
logger.info("数字解析出现错误")
return uncode_list[0]
def run(self):
url = 'http://www.dianping.com/shanghai/ch10/r801'
html = self.get_html(url)
shop_el_list = html.css("#shop-all-list li")
for shop_info in shop_el_list:
item = {}
shop_name = shop_info.css("div.txt div.tit a::attr(title) ").extract_first()
item["名称"] = shop_name
score = shop_info.css("div.txt div.comment div.nebula_star div.star_score::text").extract_first()
item["评分"] = score
review_num = shop_info.css("div.txt div.comment>a.review-num > b ").extract()
item["评价数"] = self.get_count(review_num)
mean_price = shop_info.css("div.txt div.comment>a.mean-price > b ").extract()
item["人均花费"]=self.get_count(mean_price)
# item["类型"]
# item["地址"]
recommend = shop_info.css("div.txt div.recommend>a::text").extract()
item["推荐"] = recommend
print(item)
上述代码就是这个demo中最关键的两个内容,一个是逻辑,一个是数字解析。这里我就不费口舌进行一一解释了。同学们自己看下吧。
python爬大众点评手机号_Python爬虫丨大众点评数据爬虫教程(1)相关推荐
- python用tsne降维图像_python代码实现TSNE降维数据可视化教程
TSNE降维jne免费资源网 降维就是用2维或3维表示多维数据(彼此具有相关性的多个特征数据)的技术,利用降维算法,可以显式地表现数据.(t-SNE)t分布随机邻域嵌入 是一种用于探索高维数据的非线性 ...
- Python爬取《权力的游戏第八季》演员数据并分析
Python爬取<权力的游戏第八季>演员数据并分析 数据爬取 一.浏览待爬取网页 二.爬取百度百科中<权力的游戏第八季度>演员表获得每个演员的链接并保存入文件 三.爬取演员详细 ...
- 爬虫python爬取页面请求_Python网络爬虫第三弹《爬取get请求的页面数据》
一.urllib库 urllib是Python自带的一个用于爬虫的库,其主要作用就是可以通过代码模拟浏览器发送请求.其常被用到的子模块在Python3中的为urllib.request和urllib. ...
- python爬取豆瓣小组_Python 爬虫实例+爬取豆瓣小组 + wordcloud 制作词云图
目标 利用PYTHON爬取如下图中所有回答的内容,并且制作词云图. 用到的库 import requests # import json from PIL import Image from pyqu ...
- python爬取微博内容_Python 爬虫如何机器登录新浪微博并抓取内容?
最近为了做事件分析写了一些微博的爬虫,两个大V总共爬了超70W的微博数据. 官方提供的api有爬取数量上限2000,想爬取的数据大了就不够用了... 果断撸起袖子自己动手!先简单说一下我的思路: 一. ...
- python爬取控制台信息_python爬虫实战之爬取智联职位信息和博客文章信息
1.python爬取招聘信息 简单爬取智联招聘职位信息 # !/usr/bin/env python # -*-coding:utf-8-*- """ @Author ...
- python爬取虾米音乐_Python爬取620首虾米歌曲,揭秘五月天为什么狂吸粉?!
最近两天,我被朋友圈的五月天粉丝(五迷)疯狂刷屏,"五月天永远陪你到20岁""演唱会即视感",这些字眼让我恨不得马上奔到电影院打卡. 作为五迷,我是满怀激情地在 ...
- python爬取虾米音乐_Python 爬取 620 首虾米歌曲,揭秘五月天为什么狂吸粉?!
原标题:Python 爬取 620 首虾米歌曲,揭秘五月天为什么狂吸粉?! 来源:Yura不说数据说 作者 :Yura 最近两天,我被朋友圈的五月天粉丝(五迷)疯狂刷屏,"五月天永远陪你到2 ...
- python爬取小说章节信息用pygame进行数据显示_爬虫不过如此(python的Re 、Requests、BeautifulSoup 详细篇)...
网络爬虫(又被称为网页蜘蛛,网络机器人,在FOAF社区中间,更经常的称为网页追逐者),是一种按照一定的规则,自动地抓取万维网信息的程序或者脚本. 爬虫的本质就是一段自动抓取互联网信息的程序,从网络获取 ...
- python爬取歌曲评论_python 爬取歌曲评论的简单示例
这篇文章主要为大家详细介绍了python 爬取歌曲评论的简单示例,具有一定的参考价值,可以用来参考一下. 感兴趣python 爬取歌曲评论的简单示例的小伙伴,下面一起跟随512笔记的小编罗X来看看吧. ...
最新文章
- php地址后面拼接页码,php分页类尾部页码导航代码
- MSDynamicsAX2009成本处理与重估(中文)
- CSV文件读取和处理
- 空调系统故障类型与故障案例集
- 键盘录入学生信息,保存到集合中
- 【C++深度剖析教程26】父子间的冲突
- 记录一下flex布局左边固定,右边100%
- (转)淘淘商城系列——中文分析器IK-Analyzer的使用
- 手机号归属地 mysql脚本_示例演示手机号归属地查询功能
- 运维学习:常用运维工具
- MySQL中文乱码解决方案
- 使用C#实现Rundll32程序功能
- 自定义注解,实现业务处理
- Spyder的安装与汉化
- 转载为什么USART的RX和TX和SPI的MISO、MOSI都被配置成推挽输出,他们还能正常工作
- SVN异常处理——禁止访问
- MATLAB识别实验,Matlab在图像处理与目标识别方面的应用实验
- 高可用架构之高可用的应用和服务
- GHost++ CB (Custom Build) MOD
- 台式计算机反复启动,台式机总是一直重启怎么办