由于在工作中,客户需要大众点评的行业数据,因此本人使用Python对大众点评网站进行了爬取,虽然在爬取之前就想好了可能会遇到的坑,但是没想要从坑中爬出来这么难。本次大众点评爬虫代码编写耗时一个月。也算是我目前遇到的爬取难度最高的网站。由于我遇到的坑很多同行业踩过,因此我就讲写的好的同行的内容直接引用了。如果有需要帮忙爬取大众点评商户数据的可以联系我,qq 704329038。
    大众点评网站的第一个坑。显示数量有限。大众点评只显示前50页的内容,这也是为了反爬,为了获取全部的内容,采取组合美食分类和区域id的方式,这样基本上就可以限制页数小于50。
(转自https://blog.csdn.net/Tracy_LeBron/article/details/95199012)
url类似这种:
http://www.dianping.com/shenzhen/ch10/g117r1949
其中g117代表美食分类,r1949代表区域id。
先获取大众点评的美食分类的标签
按照行政区获取各区域的id
将美食分类和区域组合就可以获取到该链接下的shopid。
这里获取到所有的shopid之后,我尝试进行了店铺详情的爬取,在成功爬取几个店铺详情页后,楼主的IP就被封了(大概封了2周的时间),果断采用代理的方式,但是发现开源的代理中本来就没有几个能 用的ip,而一个ip在爬取2页面差不多就要被封了,这样导致效率非常低。这个时候想到爬取移动端(APP)的数据。在进行一番验证后,发现shopid在网页端和移动端是一致的。爬取移动端的数据,代理ip的有效时间会好很多。最后就果断采取爬取app端的数据。
说明下:我也尝试了使用自动化测试框架selenium去模拟人为操作,但是大众点评可以识别出selenium框架,直接就进入到了验证中心,输入验证码后仍然会报服务拒绝。 就果断弃之(貌似有阉割版的浏览器驱动,可以跳过大众点评的验证)。
大众点评网站的第二个坑。页面数据内容加密。可以看到,在图中通过直接查看html代码发现,无法直接获取。


关于如果应对大众点评的字体反爬,大家可以参考一下几篇博客。
https://www.jianshu.com/p/cc3dee3b5373
https://blog.csdn.net/Tracy_LeBron/article/details/95199012
大众点评网站的第三个坑。封禁ip。对于封禁ip的应对方法主要的就是设置ip池,大家可以参考下面这篇博客。
https://jiyinqin.com/2019/02/26/Python%E7%88%AC%E8%99%AB%E5%AE%9E%E6%88%98%E4%B9%8B%E5%A4%A7%E4%BC%97%E7%82%B9%E8%AF%84

以下是本人爬取到的数据效果

店铺名 电话 店铺id
 饕林餐厅(春熙路店)   028-62670108   028-62670278  G41gaJfqGBICtiVY
 马旺子·川小馆(太古里店)   028-64231923  ivbjaqnpAdOCsiY4
 拂晓(中粮鸿云悦街店)   028-86536888   19182072589  k3xc1G7qSuDIk7i2
 御苑精品川菜馆   028-84547999   028-84515666  k76z2vHK0CvzO5jd
 芳香景私房菜·精致意境川菜(太古里店)   18030713349   028-84432099  G6V2vepWLas26elh
 玫瑰小镇私人花园订制餐厅(三圣乡店)   13076084048  H7MlxtQ6KYX1GSRz
 庭院399(净居寺店)   028-84552579   18180881101  kax4HmOMILPUYu6P
 云门·兰亭(太古里店)   18181981561   18181985801  k4YMoyID0ZLJKHjG
 吞川汤饭(成都远洋太古里店)   028-86913271  k1Xin3VM75f8fd9G
 江家1号·鲜货烧烤·花园餐厅(三圣乡总店)   18180656255  k14JLjtwj9IIOHNF
 8号厚厨(翡翠店)   028-86611286   028-86610056  G4YMhFxmht6JDVlG
 屋顶上的樱园   028-86788498  H7EOSSsyAglcO017
 花醉(恒大广场店)   18086832700   15388117207  l6UcTI3RI0SLVFS4
 晓愿·烤肉·团建会议(三圣乡店)   18608037883   18040321215  k3vAy1NWu4jXluwr
 蝶语·韵   028-84522888  k4Rxr1PhEp9blJmP
 里院传家菜•小庭院川菜(九眼桥店)   13060015339  H3Nm5o9aQke4201M
 缘贡自贡菜·川菜馆(春熙路店)   028-88610518  k5Yr6ppjc2Dmyibe
 林一家私房菜·辣炒川菜(春熙路店)   19108216371   028-66166138  G9sMKJmXE01hOUrz
 春生   13541247388   19981297652  l8fvglHKMw5aLUf5
 因为遇见你·新派川菜(春熙店)   028-86670620   028-86623713  k60XKwCQKC45AKbE
 夜食·乐山江湖菜(海椒市店)   15388134678  k5rtqRh2W570laEe
 纯银净地民谣餐厅 ·江湖菜   028-64068567   17711062177  G6dg9D160IDSZncu
 大融厨鸡毛店(九眼桥店)   028-63857322   19938849361  l5tVrgeO9QfWofRm
 江家艺苑农家乐(开心巴比肯店)   15388262600  l5BvzPgKd6E4ZiqN
 拾叁月·派对私厨·下午茶   17781672726  l7LbgzCxe79pB94j
 东湖首席   028-84538888  la2IUKjLWAZHFDFt
 满局江湖菜   028-84087300  k2iTkHo6aVwwnnKf
 幸福·柴火鸡(三圣乡店)   18848355920   15928697282  H8XrZiG4XqEzMaUL
 柳浪99餐饮荟   028-86937888   028-86957888  HaQpPV3scsyjdoI2
 台山蚝院   13908008668   13438349040  k3CMM6FwvbQNfLfv
 黄哥江油肥肠   13981938428   15390412970  G7EZPsuEMInHdRid
 许家菜(望江店)   028-85291388  H92hcHm1WbP7oqv1
 柒桌·传承川菜(猛追湾街店)   028-67877176  H779lslaUFlBuzHB
 转转会(莲桂店)   028-84511000  H8c0qVKlZO1C0zJt
 拈一筷子·宜宾江湖菜(九眼桥十一街店)   028-85112055  G2umKah8o1Gen8zh
 御鳝房餐厅六合土鳝鱼   13348808453   13668128948  G6CkVsH2DnyL0Onc
 九久鲜锅菜(春熙店)   028-64660619   13568880635  G8cJfmXsdd8fS4hX
 院子老柴房·柴火鸡·烤全羊(三圣乡店)   18011514876   17743213620  H2hDq6pe7ZLvEKf7
 闲亭七贤同园林餐厅(九眼桥店)   028-65999900   028-84527711  k9WaHydNd5cD9hvo
 薛涛·院子里   028-84778488   19940822086  l8sMqld0c0ldiUgw
 耍酒馆(九眼桥店)   028-87048162  G1Zlv0YNcCyRVQiY
 柒月小院   17360134550   13880307268  H5zVn1T51qZcISnW
 花乡香桂园(原金桂园)   13679000269  H1RZONEdWw8d4r82
 松云泽   028-61197776  l9FasKMUGOAjC6Nj
 成都里鸡毛民间菜   028-86118139  G2iCe8VvGuCgPIhR
 旮旮老院坝(九眼桥店)   028-85483681   028-85431191  H2vIY4Yv2Appueb1

Python,requests爬虫,使用代理爬取大众点评(含爬取结果。。。在文末)相关推荐

  1. python爬取大众点评_Python 爬取大众点评 50 页数据,最好吃的成都火锅竟是它!...

    前言 文的文字及图片来源于网络,仅供学习.交流使用,不具有任何商业用途,版权归原作者所有,如有问题请及时联系我们以作处理. 作者: 胡萝卜酱 PS:如有需要Python学习资料的小伙伴可以加点击下方链 ...

  2. python+requests+beautifulsoup爬取大众点评评论信息

    特别声明,此文写于2018年2月,大众点评的页面逻辑,已做了改动,请找最近爬的文章看下,谢谢支持. 先简单聊两句,距离上一篇博客大概过去了4个月,在忙一些别的事情,除了公司有新项目上线,学习新技术之外 ...

  3. python爬虫实战---爬取大众点评评论

    python爬虫实战-爬取大众点评评论(加密字体) 1.首先打开一个店铺找到评论 很多人学习python,不知道从何学起. 很多人学习python,掌握了基本语法过后,不知道在哪里寻找案例上手. 很多 ...

  4. python爬取大众点评数据_python爬虫实例详细介绍之爬取大众点评的数据

    python 爬虫实例详细介绍之爬取大众点评的数据 一. Python作为一种语法简洁.面向对象的解释性语言,其便捷性.容易上手性受到众多程序员的青睐,基于python的包也越来越多,使得python ...

  5. python爬虫爬取大众点评店铺简介信息

    python爬虫爬取大众点评店铺简介信息 写作目的: 爬取目标 大众点评的保护机制 应对方法 还存在的问题 写作目的: 今天帮朋友一个忙,要爬取一些大众点评上的数据.结果发现大众点评的防爬机制还挺多的 ...

  6. 为了部落 来自艾泽拉斯勇士的python爬虫学习心得 爬取大众点评上的各种美食数据并进行数据分析

    为了希尔瓦娜斯 第一个爬虫程序 csgo枪械数据 先上代码 基本思想 问题1 问题2 爬取大众点评 URL分析 第一个难题 生成csv文件以及pandas库 matplotlib.pyplot库 K- ...

  7. python爬取大众点评评论_python爬虫抓取数据 小试Python——爬虫抓取大众点评上的数据 - 电脑常识 - 服务器之家...

    python爬虫抓取数据 小试Python--爬虫抓取大众点评上的数据 发布时间:2017-04-07

  8. python爬虫大众点评_python爬虫——按城市及店铺面爬取大众点评分类

    题外话:因为最近遇到很多标签要对其进行分类,其中很多是店铺名,所以就想爬取大众点评的分类信息.因为不是专门做爬虫的,所以下面这段代码仅仅是可以实现要求,如何能避免网站的反爬机制这一点就无能无力了.另外 ...

  9. 反反爬虫之--爬取大众点评--店铺名称、详址、经纬度、评价人数、平均消费等信息

    every blog every motto: Let's be loyal to our ideals, let's face reality-Chegwara 前言: 知难不难! 折腾了几天爬取大 ...

最新文章

  1. flex 单独一行_Flex网页布局一CSS弹性伸缩盒子语法教程
  2. Java中break、Continue、reutrn总结
  3. Metasploit中aggregator插件无法使用
  4. python和java一样吗-Java与Python到底有什么区别和共同点详细对比
  5. matlab多个绘图,合并多个绘图 - MATLAB Simulink - MathWorks 中国
  6. MVC把随机产生的字符串转换为图片
  7. 恭喜神策数据客户趣店赴美 IPO 上市!
  8. 信息学竞赛的常数优化、常见问题、代码风格相关
  9. SFTP多用户权限 linux环境 一站式解决方案
  10. VSS (Visual Source Safe 2005) 用法详解(转载)
  11. java课设电子门禁_Java 并发专题 : CyclicBarrier 打造一个安全的门禁系统
  12. linux内存管理实验,Linux内存管理机制研究
  13. 使用ping方法,依据TTL值,探测对方主机操作系统
  14. Java的新项目学成在线笔记-day14(二)
  15. Flash MX 2004 编程(AS2.0)教程(五)
  16. 联想启天m410进bios_联想启天M410台式机怎么装win7系统
  17. 题目:找出某种珍贵药材的生长区域
  18. Springboot毕设项目电子银行业务办理系统38kny(java+VUE+Mybatis+Maven+Mysql)
  19. HTML基础 冲冲冲
  20. outlook删除特定年份邮件_Outlook中删除只保留30天邮件文件夹

热门文章

  1. 子元素自动撑开父元素空间
  2. 12月29日每日一题
  3. 国产国脑与腾讯会议配合挺默契
  4. 安卓Android轻松完成支付宝支付教程
  5. 计算机课程和教学计划,计算机教学计划
  6. 这个毕业季,让海马体照相馆为简历添“战斗力”
  7. ld-linux-x86-64.so.2挖矿木马,排查操作记录
  8. AD20 输出制板文件小记
  9. Android Studio 更换/设置App应用图标Icon
  10. php下载到指定目录,下面这段代码如何下载到指定目录