python 爬虫餐饮行业 数据分析_Python爬取美团美食板块商家数据
导语
利用Python简单爬取美团美食板块商家数据。。。
其实一开始我是想把美团的所有商家信息爬下来的,这样就可以美其名曰百万数据了。。。
然而相信很多爬过美团的朋友都发现了。。。
如果不进行一些小操作。。。
爬不了几页代码就GG了。。。
后来想想我要这么多数据也没什么用。。。
唯一对我有用的。。。
大概就是美食板块了。。。
以后用到其他板块的时候再另外爬就好了。。。
OK,Let's go!
主要思路
目的:
根据输入的城市名,爬取该城市美团美食板块所有商家的数据。数据包括:
店名、评分、评论数量、均价、地址,
并将这些数据存入Excel中。
最后尝试对爬取到的数据做一个简单的分析。
克服反爬虫:
爬取每页数据后,随机停止一段时间后再爬下一页;
每页使用不同的cookie值。
具体原理:
没用抓包软件。。。
Chrome打开后看了下xhr。。。
发现直接有接口可以用。。。
给个cookie就能返回所需的数据了。。。
后来随便点了几个其他板块的网页。。。
发现也差不多是这个套路。。。
详细的实现过程见源代码。
开发工具
Python版本:3.5.4
相关模块:
requests模块;
win_unicode_console模块;
openpyxl模块;
以及一些Python自带的模块。
环境搭建
安装Python并添加到环境变量,pip安装需要的相关模块即可。
使用演示
在cmd窗口运行MT_Cate_Spider.py文件即可。
简单分析
其实在码字的时候我临时加的这个部分。。。
原因很简单。。。
我想强调爬虫和数据分析结合的重要性。。。
数据不多,懒得写代码分析了。。。
利用Excel的数据分析功能简单分析一波吧~~~
用的上海地区的数据。
首先当然是按照评分排个序,然后做成柱状图:
然后是评论数量排个序,做成柱状图:
然后再做点其他有趣的图案:
OK,That's all!
更多
如果有需要,我会写一个爬取美团所有商家信息的脚本,因为就如之前所说。。。
貌似都有直接可以用的接口。。。
所以还算比较简单。。。
只要弄到足够多的cookie值就好了。。。
当然这个Flag应该是要到我实在没东西写或者懒得重新踩点的时候才会去实现了吧。。。
就这样吧~~~
有兴趣的朋友可以试着去抓其他板块的数据。。。
貌似挺easy的。。。
小心别被封了就好了。。。
代码截止2018-02-25测试无误。
python 爬虫餐饮行业 数据分析_Python爬取美团美食板块商家数据相关推荐
- python 爬虫餐饮行业 数据分析_Python爬虫并数据分析火锅
冬天到了,天气越来越冷,小编起床越来越困难了,每一天都想吃辣辣的火锅.成都到处都是火锅店,有名的店,稍微去晚一点,排队都要排好久,没听说的店,又怕味道不好.那么如何选择火锅店呢?最简单的肯定是在美团. ...
- python爬虫餐饮行业数据分析统计服_Python数据分析实战,简单快速制作餐饮行业商业化报告...
前些天有个朋友向我求救,他们公司最近要针对餐饮行业做数据分析,并为某些商家做出线上营销方案.但是他一头雾水,不知道该从哪方面下手. 我提醒他,是否先从商家的线上评价作为数据分析的入口例如美团.大众点评 ...
- python爬虫餐饮行业数据分析统计服_用Python分析统计必胜客餐厅
在之前的 一篇文章100行代码爬取全国所有必胜客餐厅 信息,我讲到如何爬取必胜客官网中全国各大城市餐厅的信息.虽然餐厅数据信息被抓取下来,但是数据一直在硬盘中"躺尸".不曾记得,自 ...
- python爬虫有道词典_Python爬取有道词典,有道的反爬很难吗?也就这样啊!
前言 大家好 最近python爬虫有点火啊,啥python爬取马保国视频--我也来凑个热闹,今天我们来试着做个翻译软件--不是不是,说错了,今天我们来试着提交翻译内容并爬取翻译结果 主要内容 PS ...
- python爬虫知乎图片_python 爬取知乎图片
先上完整代码 1 importrequests2 importtime3 importdatetime4 importos5 importjson6 importuuid7 from pyquery ...
- python爬虫淘宝评论_Python爬取淘宝店铺和评论
1 安装开发需要的一些库 (1) 安装mysql 的驱动:在Windows上按win+r输入cmd打开命令行,输入命令pip install pymysql,回车即可. (2) 安装自动化测试的驱动s ...
- python爬虫免费代理池_Python爬取免费代理搭建代理池
我们在做爬虫的过程中经常会遇到这样的情况:最初爬虫正常运行,正常抓取数据,一切看起来都是那么美好,然而一杯茶的功夫可能就会出现错误,比如403Forbidden:这时候网页上可能会出现 "您 ...
- python爬虫猫眼电影票房_python爬取猫眼电影top100排行榜
爬取猫眼电影TOP100(http://maoyan.com/board/4?offset=90) 1). 爬取内容: 电影名称,主演, 上映时间,图片url地址保存到mariadb数据库中; 2). ...
- Python爬虫Selenium手动接管Edge爬取裁判文书网“环境污染”数据(Mac环境)
目标数据:爬取从2007年到2022年,各地级市中级法院历年关于"环境污染"的裁判文书数量. 由于裁判文书网需要登录,Selenium手动接管爬取可避免频繁登录造成的封号风险. S ...
最新文章
- JSP装状态管理 session cookie
- Android中文API(115)——AudioFormat
- 【Tools】VNC Viewer 6.20安装详解
- 【转载】Python操作Excel的读取以及写入
- jQuery手风琴图切换特效插件
- 面试经历—广州YY(欢聚时代)
- c语言枚举代替双switch,C语言 使用数组代替switch分支语句降低圈复杂度
- postman数据保存在哪里_Postman 历史记录导出的解决方案
- 华为鸿蒙网络,这回真翻脸了?被谷歌“除名”,官宣鸿蒙手机版,华为:走着瞧...
- 测开之路二十二:迭代器、生成器
- csdn怎么添加好友
- 免费资源网站,你想要的全都有【各类宝藏资源 】
- JS前端实现是否繁体判断,简繁体转换,简体和QQ个性繁体转换
- 艺工交叉——观《达芬奇的人生密码》有感
- 服务器装win7没有硬盘模式,联想电脑BIOS里硬盘的SATA,AHCI模式里面怎么没有I...-联想p310工作站装win7,联想电脑工作站...
- Adobe Photoshop CC2018软件安装教程
- 【问链财经-区块链基础知识系列】 第二十三课 一张纸搞定B2B供应链金融产品设计思路
- tauri打包慢:解决tauri的打包慢以及超时的方法
- 计算机管理任务类别103,win7系统如何查看电脑的历史开关机时间|win7系统怎么查询电脑开机后运行多长时间...
- Curator使用手册
热门文章
- 关于sudo dpkg-divert –local –rename –add /sbin/initctl导致的开机无图标解决方法
- F28335 ePWM计数模块(CC)与 动作模块(AC)及其寄存器配置 ————TMS320F28335学习笔记(六)
- java弹弓类游戏_Android cocos2d 弹弓游戏 Catapult 源代码
- ios avi_转换DVD,ISO和AVI视频以在iOS设备上播放
- Android蓝牙开发(一)
- android清理缓存实现,android之清理缓存实现
- 阿里巴巴张勇谈商业文明:让更多小草能长成参天大树
- zabbix监控系统下——zabbix实现数据库监控、对JMX的支持、server和agent的关系、zabbix监控报警平台
- H3C防火墙基础配置操作
- python解决微信登录昵称中带有表情emoji报错,亲测有效。