Python,requests爬虫,使用代理爬取大众点评(含爬取结果。。。在文末)
由于在工作中,客户需要大众点评的行业数据,因此本人使用Python对大众点评网站进行了爬取,虽然在爬取之前就想好了可能会遇到的坑,但是没想要从坑中爬出来这么难。本次大众点评爬虫代码编写耗时一个月。也算是我目前遇到的爬取难度最高的网站。由于我遇到的坑很多同行业踩过,因此我就讲写的好的同行的内容直接引用了。如果有需要帮忙爬取大众点评商户数据的可以联系我,qq 704329038。
大众点评网站的第一个坑。显示数量有限。大众点评只显示前50页的内容,这也是为了反爬,为了获取全部的内容,采取组合美食分类和区域id的方式,这样基本上就可以限制页数小于50。
(转自https://blog.csdn.net/Tracy_LeBron/article/details/95199012)
url类似这种:
http://www.dianping.com/shenzhen/ch10/g117r1949
其中g117代表美食分类,r1949代表区域id。
先获取大众点评的美食分类的标签
按照行政区获取各区域的id
将美食分类和区域组合就可以获取到该链接下的shopid。
这里获取到所有的shopid之后,我尝试进行了店铺详情的爬取,在成功爬取几个店铺详情页后,楼主的IP就被封了(大概封了2周的时间),果断采用代理的方式,但是发现开源的代理中本来就没有几个能 用的ip,而一个ip在爬取2页面差不多就要被封了,这样导致效率非常低。这个时候想到爬取移动端(APP)的数据。在进行一番验证后,发现shopid在网页端和移动端是一致的。爬取移动端的数据,代理ip的有效时间会好很多。最后就果断采取爬取app端的数据。
说明下:我也尝试了使用自动化测试框架selenium去模拟人为操作,但是大众点评可以识别出selenium框架,直接就进入到了验证中心,输入验证码后仍然会报服务拒绝。 就果断弃之(貌似有阉割版的浏览器驱动,可以跳过大众点评的验证)。
大众点评网站的第二个坑。页面数据内容加密。可以看到,在图中通过直接查看html代码发现,无法直接获取。
关于如果应对大众点评的字体反爬,大家可以参考一下几篇博客。
https://www.jianshu.com/p/cc3dee3b5373
https://blog.csdn.net/Tracy_LeBron/article/details/95199012
大众点评网站的第三个坑。封禁ip。对于封禁ip的应对方法主要的就是设置ip池,大家可以参考下面这篇博客。
https://jiyinqin.com/2019/02/26/Python%E7%88%AC%E8%99%AB%E5%AE%9E%E6%88%98%E4%B9%8B%E5%A4%A7%E4%BC%97%E7%82%B9%E8%AF%84
以下是本人爬取到的数据效果
店铺名 | 电话 | 店铺id |
饕林餐厅(春熙路店) | 028-62670108 028-62670278 | G41gaJfqGBICtiVY |
马旺子·川小馆(太古里店) | 028-64231923 | ivbjaqnpAdOCsiY4 |
拂晓(中粮鸿云悦街店) | 028-86536888 19182072589 | k3xc1G7qSuDIk7i2 |
御苑精品川菜馆 | 028-84547999 028-84515666 | k76z2vHK0CvzO5jd |
芳香景私房菜·精致意境川菜(太古里店) | 18030713349 028-84432099 | G6V2vepWLas26elh |
玫瑰小镇私人花园订制餐厅(三圣乡店) | 13076084048 | H7MlxtQ6KYX1GSRz |
庭院399(净居寺店) | 028-84552579 18180881101 | kax4HmOMILPUYu6P |
云门·兰亭(太古里店) | 18181981561 18181985801 | k4YMoyID0ZLJKHjG |
吞川汤饭(成都远洋太古里店) | 028-86913271 | k1Xin3VM75f8fd9G |
江家1号·鲜货烧烤·花园餐厅(三圣乡总店) | 18180656255 | k14JLjtwj9IIOHNF |
8号厚厨(翡翠店) | 028-86611286 028-86610056 | G4YMhFxmht6JDVlG |
屋顶上的樱园 | 028-86788498 | H7EOSSsyAglcO017 |
花醉(恒大广场店) | 18086832700 15388117207 | l6UcTI3RI0SLVFS4 |
晓愿·烤肉·团建会议(三圣乡店) | 18608037883 18040321215 | k3vAy1NWu4jXluwr |
蝶语·韵 | 028-84522888 | k4Rxr1PhEp9blJmP |
里院传家菜•小庭院川菜(九眼桥店) | 13060015339 | H3Nm5o9aQke4201M |
缘贡自贡菜·川菜馆(春熙路店) | 028-88610518 | k5Yr6ppjc2Dmyibe |
林一家私房菜·辣炒川菜(春熙路店) | 19108216371 028-66166138 | G9sMKJmXE01hOUrz |
春生 | 13541247388 19981297652 | l8fvglHKMw5aLUf5 |
因为遇见你·新派川菜(春熙店) | 028-86670620 028-86623713 | k60XKwCQKC45AKbE |
夜食·乐山江湖菜(海椒市店) | 15388134678 | k5rtqRh2W570laEe |
纯银净地民谣餐厅 ·江湖菜 | 028-64068567 17711062177 | G6dg9D160IDSZncu |
大融厨鸡毛店(九眼桥店) | 028-63857322 19938849361 | l5tVrgeO9QfWofRm |
江家艺苑农家乐(开心巴比肯店) | 15388262600 | l5BvzPgKd6E4ZiqN |
拾叁月·派对私厨·下午茶 | 17781672726 | l7LbgzCxe79pB94j |
东湖首席 | 028-84538888 | la2IUKjLWAZHFDFt |
满局江湖菜 | 028-84087300 | k2iTkHo6aVwwnnKf |
幸福·柴火鸡(三圣乡店) | 18848355920 15928697282 | H8XrZiG4XqEzMaUL |
柳浪99餐饮荟 | 028-86937888 028-86957888 | HaQpPV3scsyjdoI2 |
台山蚝院 | 13908008668 13438349040 | k3CMM6FwvbQNfLfv |
黄哥江油肥肠 | 13981938428 15390412970 | G7EZPsuEMInHdRid |
许家菜(望江店) | 028-85291388 | H92hcHm1WbP7oqv1 |
柒桌·传承川菜(猛追湾街店) | 028-67877176 | H779lslaUFlBuzHB |
转转会(莲桂店) | 028-84511000 | H8c0qVKlZO1C0zJt |
拈一筷子·宜宾江湖菜(九眼桥十一街店) | 028-85112055 | G2umKah8o1Gen8zh |
御鳝房餐厅六合土鳝鱼 | 13348808453 13668128948 | G6CkVsH2DnyL0Onc |
九久鲜锅菜(春熙店) | 028-64660619 13568880635 | G8cJfmXsdd8fS4hX |
院子老柴房·柴火鸡·烤全羊(三圣乡店) | 18011514876 17743213620 | H2hDq6pe7ZLvEKf7 |
闲亭七贤同园林餐厅(九眼桥店) | 028-65999900 028-84527711 | k9WaHydNd5cD9hvo |
薛涛·院子里 | 028-84778488 19940822086 | l8sMqld0c0ldiUgw |
耍酒馆(九眼桥店) | 028-87048162 | G1Zlv0YNcCyRVQiY |
柒月小院 | 17360134550 13880307268 | H5zVn1T51qZcISnW |
花乡香桂园(原金桂园) | 13679000269 | H1RZONEdWw8d4r82 |
松云泽 | 028-61197776 | l9FasKMUGOAjC6Nj |
成都里鸡毛民间菜 | 028-86118139 | G2iCe8VvGuCgPIhR |
旮旮老院坝(九眼桥店) | 028-85483681 028-85431191 | H2vIY4Yv2Appueb1 |
Python,requests爬虫,使用代理爬取大众点评(含爬取结果。。。在文末)相关推荐
- python爬取大众点评_Python 爬取大众点评 50 页数据,最好吃的成都火锅竟是它!...
前言 文的文字及图片来源于网络,仅供学习.交流使用,不具有任何商业用途,版权归原作者所有,如有问题请及时联系我们以作处理. 作者: 胡萝卜酱 PS:如有需要Python学习资料的小伙伴可以加点击下方链 ...
- python+requests+beautifulsoup爬取大众点评评论信息
特别声明,此文写于2018年2月,大众点评的页面逻辑,已做了改动,请找最近爬的文章看下,谢谢支持. 先简单聊两句,距离上一篇博客大概过去了4个月,在忙一些别的事情,除了公司有新项目上线,学习新技术之外 ...
- python爬虫实战---爬取大众点评评论
python爬虫实战-爬取大众点评评论(加密字体) 1.首先打开一个店铺找到评论 很多人学习python,不知道从何学起. 很多人学习python,掌握了基本语法过后,不知道在哪里寻找案例上手. 很多 ...
- python爬取大众点评数据_python爬虫实例详细介绍之爬取大众点评的数据
python 爬虫实例详细介绍之爬取大众点评的数据 一. Python作为一种语法简洁.面向对象的解释性语言,其便捷性.容易上手性受到众多程序员的青睐,基于python的包也越来越多,使得python ...
- python爬虫爬取大众点评店铺简介信息
python爬虫爬取大众点评店铺简介信息 写作目的: 爬取目标 大众点评的保护机制 应对方法 还存在的问题 写作目的: 今天帮朋友一个忙,要爬取一些大众点评上的数据.结果发现大众点评的防爬机制还挺多的 ...
- 为了部落 来自艾泽拉斯勇士的python爬虫学习心得 爬取大众点评上的各种美食数据并进行数据分析
为了希尔瓦娜斯 第一个爬虫程序 csgo枪械数据 先上代码 基本思想 问题1 问题2 爬取大众点评 URL分析 第一个难题 生成csv文件以及pandas库 matplotlib.pyplot库 K- ...
- python爬取大众点评评论_python爬虫抓取数据 小试Python——爬虫抓取大众点评上的数据 - 电脑常识 - 服务器之家...
python爬虫抓取数据 小试Python--爬虫抓取大众点评上的数据 发布时间:2017-04-07
- python爬虫大众点评_python爬虫——按城市及店铺面爬取大众点评分类
题外话:因为最近遇到很多标签要对其进行分类,其中很多是店铺名,所以就想爬取大众点评的分类信息.因为不是专门做爬虫的,所以下面这段代码仅仅是可以实现要求,如何能避免网站的反爬机制这一点就无能无力了.另外 ...
- 反反爬虫之--爬取大众点评--店铺名称、详址、经纬度、评价人数、平均消费等信息
every blog every motto: Let's be loyal to our ideals, let's face reality-Chegwara 前言: 知难不难! 折腾了几天爬取大 ...
最新文章
- flex 单独一行_Flex网页布局一CSS弹性伸缩盒子语法教程
- Java中break、Continue、reutrn总结
- Metasploit中aggregator插件无法使用
- python和java一样吗-Java与Python到底有什么区别和共同点详细对比
- matlab多个绘图,合并多个绘图
- MATLAB Simulink
- MathWorks 中国
- MVC把随机产生的字符串转换为图片
- 恭喜神策数据客户趣店赴美 IPO 上市!
- 信息学竞赛的常数优化、常见问题、代码风格相关
- SFTP多用户权限 linux环境 一站式解决方案
- VSS (Visual Source Safe 2005) 用法详解(转载)
- java课设电子门禁_Java 并发专题 : CyclicBarrier 打造一个安全的门禁系统
- linux内存管理实验,Linux内存管理机制研究
- 使用ping方法,依据TTL值,探测对方主机操作系统
- Java的新项目学成在线笔记-day14(二)
- Flash MX 2004 编程(AS2.0)教程(五)
- 联想启天m410进bios_联想启天M410台式机怎么装win7系统
- 题目:找出某种珍贵药材的生长区域
- Springboot毕设项目电子银行业务办理系统38kny(java+VUE+Mybatis+Maven+Mysql)
- HTML基础 冲冲冲
- outlook删除特定年份邮件_Outlook中删除只保留30天邮件文件夹