学习python已经一段时间,就想着利用他爬取大众点评上的一些数据,用于分析。

这里,我选择爬取国内各个地区和省份关于黄焖鸡米饭的店面数据

具体的格式:店面 id,省份,城市,开店时间,店名

首先声明:

大众点评的数据,并不是很好爬取的。注意:他会禁止IP

我通过下面方法得以解决

1、UserAgent经常换一换;
2、访问时间间隔设长一点,访问时间设置为随机数;sleep()
3、访问页面的顺序也可以随机着来

4、自动IP代理

获取IP

User_Agent = 'Mozilla/5.0 (Windows NT 6.3; WOW64; rv:43.0) Gecko/20100101 Firefox/43.0'
header = {}
header['User-Agent'] = User_Agent
url = 'http://www.xicidaili.com/nn/1'
req = urllib2.Request(url,headers=header)
res = urllib2.urlopen(req).read()

soup = BeautifulSoup(res,'html.parser', from_encoding='utf-8')
ips = soup.findAll('tr')
f = open("proxy.txt","w")
for x in range(1,len(ips)):
    ip = ips[x]
    tds = ip.findAll("td")
    #ip_temp = tds[1].contents[0]+"\t"+tds[2].contents[0]+"\n"
    print tds[1].contents[0]+"\t"+tds[2].contents[0]
    f.write(tds[1].contents[0]+','+tds[2].contents[0]+'\n')

获取可以使用的IP

import urllib
import socket
import json
socket.setdefaulttimeout(3)
f = open("proxy.txt")
lines = f.readlines()
proxys = []
for i in range(0,len(lines)):
    ip = lines[i].replace('\n','').split(",")
    proxy_host = "http://"+ip[0]+":"+ip[1]
    proxy_temp = {"http":proxy_host}
    proxys.append(proxy_temp)
url = "http://ip.chinaz.com/getip.aspx"
index=1
fw=open('use_proxy.txt','w')
for proxy in proxys:
    print index
    try:
        res = urllib.urlopen(url,proxies=proxy).read()
        fw.write(json.dumps(proxy))
        print proxy
        index+=1
    except Exception,e:
        index+=1

爬取大众点评黄焖鸡米饭的数据相关推荐

  1. 为了部落 来自艾泽拉斯勇士的python爬虫学习心得 爬取大众点评上的各种美食数据并进行数据分析

    为了希尔瓦娜斯 第一个爬虫程序 csgo枪械数据 先上代码 基本思想 问题1 问题2 爬取大众点评 URL分析 第一个难题 生成csv文件以及pandas库 matplotlib.pyplot库 K- ...

  2. python爬取大众点评某城市美食类数据

    前言 我一个朋友是做市场调查的,前段时间他想分析一下某个城市的餐饮或美食市场状况,找到我让我帮他采集一些相关数据.经过讨论我们觉得大众点评的数据挺适合的,大众点评是一款非常受大众喜爱的一个第三方的美食 ...

  3. 爬取大众点评数据的血泪史

    公司最近致力于实现餐饮行业的AI发展模式,领导希望采集一些餐饮数据来提供理论支持.所以没多少头发的我 ,被喊过来做数据收集. 想到餐饮数据的收集,第一反应是去爬取美团/大众点评的数据,对比了下美大众点 ...

  4. 爬取大众点评页面数据教程,图片文字如何爬取

    大众点评的商家地址和详细分类,居然是用svg图形展示的文字,哇,真是用心良苦,为了反爬,可谓是脑洞大开啊,图形文字.滑块验证码.封ip,全都用上了,真是让人头疼.不过正所谓道高一尺,魔高一丈,没有达不 ...

  5. python爬取大众点评_浅谈python爬取58同城,大众点评这两个网站

    1.爬取58同城租房网遇到的坑:我爬了一页数据被封了ip,此时的我是非常的不爽,才十几条数据就封我,于是我就想着一定得找ip代理来解决这个问题,后面就写了个ip代理去弄,另外把之前头部信息ua改成了u ...

  6. Python,requests爬虫,使用代理爬取大众点评(含爬取结果。。。在文末)

    由于在工作中,客户需要大众点评的行业数据,因此本人使用Python对大众点评网站进行了爬取,虽然在爬取之前就想好了可能会遇到的坑,但是没想要从坑中爬出来这么难.本次大众点评爬虫代码编写耗时一个月.也算 ...

  7. python爬虫实战---爬取大众点评评论

    python爬虫实战-爬取大众点评评论(加密字体) 1.首先打开一个店铺找到评论 很多人学习python,不知道从何学起. 很多人学习python,掌握了基本语法过后,不知道在哪里寻找案例上手. 很多 ...

  8. python爬取大众点评数据_python爬虫实例详细介绍之爬取大众点评的数据

    python 爬虫实例详细介绍之爬取大众点评的数据 一. Python作为一种语法简洁.面向对象的解释性语言,其便捷性.容易上手性受到众多程序员的青睐,基于python的包也越来越多,使得python ...

  9. 反反爬虫之--爬取大众点评--店铺名称、详址、经纬度、评价人数、平均消费等信息

    every blog every motto: Let's be loyal to our ideals, let's face reality-Chegwara 前言: 知难不难! 折腾了几天爬取大 ...

最新文章

  1. Ansible01-Ansible基础和部署
  2. mysql最左侧原则的深入理解
  3. MySQL 全文索引实现简单版搜索引擎
  4. centos文件服务器软件,seafile服务器端的centos8的快速部署
  5. C#获取本机名及IP地址
  6. Maven的pom.xml文件详解------Environment Settings
  7. 【转】c# 协变与抗变
  8. python 问题自动匹配解决方案_最好的 Python IDE,你们推荐使用哪一个?
  9. Happy Birthday to You
  10. 几招叫你如何防止卡巴斯基Key被封
  11. 三年开发转行测试没人要
  12. Java中PDF转WORD
  13. u盘超级加密3000使用方法
  14. RTP/RTCP工程实践与问题解决方案(合集)
  15. Java编程初学者看什么书籍比较合适?
  16. 计算机ppt总结,计算机基础课件总结.ppt
  17. 测试用例设计方法(一)
  18. 51单片机驱动——LCD1602
  19. 【网络工程师路由篇】——OSPF Stub区域(思科模拟器)
  20. 程序烧录器STLINK_V2CMSIS_DAP_V2制作——DIY方案分享

热门文章

  1. 质量人想获取领导赞赏,首先要划出漂亮的鱼骨图!
  2. SharedPreferences
  3. Python的两种继承方法
  4. python每个if条件后面都要使用冒号_每个if条件后面都要使用冒号
  5. 如何进行CAN总线高效测试?
  6. 区块链笔记:典型应用:数据资产、交易系统、即时通信、链上游戏、追踪溯源等
  7. Excel Spreadsheet Compare工具
  8. python笔记-02(列表和元组)
  9. 蒙德里安森林算法_DP没入门就入土
  10. Web of Science 如何查询相关主题文献逐年的发表数量、被引频次及其走势图