python爬取大众点评某城市美食类数据
前言
我一个朋友是做市场调查的,前段时间他想分析一下某个城市的餐饮或美食市场状况,找到我让我帮他采集一些相关数据。经过讨论我们觉得大众点评的数据挺适合的,大众点评是一款非常受大众喜爱的一个第三方的美食相关的点评网站,该网站的数据也就非常有价值。优惠,评价数量,好评度等数据也就非常受数据公司的欢迎。也记录一下过程。
1.确定爬取的URL
我们需要的是每一个美食分类下的每一个热门商圈对应的数据,例如下图茶亭世茂商圈的小吃快餐对应的数据。
对比发现,每个分类ID和商圈ID的组合可以确定对应的URL的
提取分类ID和商圈ID,得到的URL如下:
2.确定字段
如下这些数据是我们需要爬取的
3.解密及分析网页
大众点评的数据大部分都是有加密的
从右边的源码可以看到文字是经过加密的,可见的不是结果和返回的结果不一样的,想这些就需要解密。
接下来就是解密
是通过svg加密的。首先是要找到woff字体文件,
下载下来,然后用fontTools库转为xml文件
from fontTools.ttLib import TTFont
def get_xml(self):
font = TTFont(‘dzdp.woff’)
font.saveXML(‘dzdp.xml’)
可以看到对应的关系了,当然这个映射是经常变得,不能对着写。
接下来就是把加密的内容替换为对应的数据了(关键代码)
4.成果展示
python爬取大众点评某城市美食类数据相关推荐
- python爬取大众点评数据
python爬取大众点评数据 参考博客: python+requests+beautifulsoup爬取大众点评评论信息 大众点评评论抓取 Chrome如何获得网页的Cookies 如何查看自己访问网 ...
- python爬取大众点评数据_python爬虫实例详细介绍之爬取大众点评的数据
python 爬虫实例详细介绍之爬取大众点评的数据 一. Python作为一种语法简洁.面向对象的解释性语言,其便捷性.容易上手性受到众多程序员的青睐,基于python的包也越来越多,使得python ...
- python爬取大众点评_浅谈python爬取58同城,大众点评这两个网站
1.爬取58同城租房网遇到的坑:我爬了一页数据被封了ip,此时的我是非常的不爽,才十几条数据就封我,于是我就想着一定得找ip代理来解决这个问题,后面就写了个ip代理去弄,另外把之前头部信息ua改成了u ...
- 爬取大众点评黄焖鸡米饭的数据
学习python已经一段时间,就想着利用他爬取大众点评上的一些数据,用于分析. 这里,我选择爬取国内各个地区和省份关于黄焖鸡米饭的店面数据 具体的格式:店面 id,省份,城市,开店时间,店名 首先声明 ...
- python爬取大众点评_【Python3爬虫】大众点评爬虫(破解CSS反爬)
本次爬虫的爬取目标是大众点评上的一些店铺的店铺名称.推荐菜和评分信息. 一.页面分析 进入大众点评,然后选择美食(http://www.dianping.com/wuhan/ch10),可以看到一页有 ...
- python爬取大众点评评论_python爬虫抓取数据 小试Python——爬虫抓取大众点评上的数据 - 电脑常识 - 服务器之家...
python爬虫抓取数据 小试Python--爬虫抓取大众点评上的数据 发布时间:2017-04-07
- python爬取大众点评数据_利用Node.js制作爬取大众点评的爬虫
前言 Node.js天生支持并发,但是对于习惯了顺序编程的人,一开始会对Node.js不适应,比如,变量作用域是函数块式的(与C.Java不一样):for循环体({})内引用i的值实际上是循环结束之后 ...
- python爬取大众点评_Python 爬取大众点评 50 页数据,最好吃的成都火锅竟是它!...
前言 文的文字及图片来源于网络,仅供学习.交流使用,不具有任何商业用途,版权归原作者所有,如有问题请及时联系我们以作处理. 作者: 胡萝卜酱 PS:如有需要Python学习资料的小伙伴可以加点击下方链 ...
- 用Python爬取大众点评数据,推荐火锅店里最受欢迎的食品
前言 文的文字及图片来源于网络,仅供学习.交流使用,不具有任何商业用途,版权归原作者所有,如有问题请及时联系我们以作处理. 作者:有趣的Python PS:如有需要Python学习资料的小伙伴可以加点 ...
最新文章
- 2016.4.2 动态规划练习--讲课整理
- vue hot true 不起作用_从源码解读 Vuex 注入 Vue 生命周期的过程
- 期待着DELPHI的浴火重生
- 蚂蚁借呗和京东金条全面对比,哪个更划算?
- [VC6] RadioBox使用入门
- linwei_211 SVN错误:Attempted to lock an already-locked dir
- ArcGis api配合vue开发入门系列(二)距离以及面积的测量
- Alameda:最初同意对Reef投资8000万美元,但支付2000万美元后Reef拒绝了随后的交易
- 逻辑斯蒂回归:家庭买私家车的概率
- 每日涉猎技术点存档(2018年6月)
- iOS 录音,播放并上传
- 显著性检验:P值和置信度
- [转帖]妇联4剧透 看不起电影看剧透.
- Python数据挖掘学习6卡方检验
- 将多个html文件合成一个,【答疑】怎么用pr将多个项目工程文件合成一个? - 视频教程线上学...
- 网络综合布线线缆如何敷设布放_网络线和综合布线施工技术交底
- editormd显示后台html,yaboxxx. -yaboxxx.V0.8.82
- 使用Vue制作幻灯片
- Should be compatible with WP_Widget::widget($args, $instance)
- 表关联之内关联用法案例详解