爬取大众点评黄焖鸡米饭的数据
学习python已经一段时间,就想着利用他爬取大众点评上的一些数据,用于分析。
这里,我选择爬取国内各个地区和省份关于黄焖鸡米饭的店面数据
具体的格式:店面 id,省份,城市,开店时间,店名
首先声明:
大众点评的数据,并不是很好爬取的。注意:他会禁止IP
我通过下面方法得以解决
1、UserAgent经常换一换;
2、访问时间间隔设长一点,访问时间设置为随机数;sleep()
3、访问页面的顺序也可以随机着来
4、自动IP代理
获取IP
User_Agent = 'Mozilla/5.0 (Windows NT 6.3; WOW64; rv:43.0) Gecko/20100101 Firefox/43.0'
header = {}
header['User-Agent'] = User_Agent
url = 'http://www.xicidaili.com/nn/1'
req = urllib2.Request(url,headers=header)
res = urllib2.urlopen(req).read()
soup = BeautifulSoup(res,'html.parser', from_encoding='utf-8')
ips = soup.findAll('tr')
f = open("proxy.txt","w")
for x in range(1,len(ips)):
ip = ips[x]
tds = ip.findAll("td")
#ip_temp = tds[1].contents[0]+"\t"+tds[2].contents[0]+"\n"
print tds[1].contents[0]+"\t"+tds[2].contents[0]
f.write(tds[1].contents[0]+','+tds[2].contents[0]+'\n')
获取可以使用的IP
import urllib
import socket
import json
socket.setdefaulttimeout(3)
f = open("proxy.txt")
lines = f.readlines()
proxys = []
for i in range(0,len(lines)):
ip = lines[i].replace('\n','').split(",")
proxy_host = "http://"+ip[0]+":"+ip[1]
proxy_temp = {"http":proxy_host}
proxys.append(proxy_temp)
url = "http://ip.chinaz.com/getip.aspx"
index=1
fw=open('use_proxy.txt','w')
for proxy in proxys:
print index
try:
res = urllib.urlopen(url,proxies=proxy).read()
fw.write(json.dumps(proxy))
print proxy
index+=1
except Exception,e:
index+=1
爬取大众点评黄焖鸡米饭的数据相关推荐
- 为了部落 来自艾泽拉斯勇士的python爬虫学习心得 爬取大众点评上的各种美食数据并进行数据分析
为了希尔瓦娜斯 第一个爬虫程序 csgo枪械数据 先上代码 基本思想 问题1 问题2 爬取大众点评 URL分析 第一个难题 生成csv文件以及pandas库 matplotlib.pyplot库 K- ...
- python爬取大众点评某城市美食类数据
前言 我一个朋友是做市场调查的,前段时间他想分析一下某个城市的餐饮或美食市场状况,找到我让我帮他采集一些相关数据.经过讨论我们觉得大众点评的数据挺适合的,大众点评是一款非常受大众喜爱的一个第三方的美食 ...
- 爬取大众点评数据的血泪史
公司最近致力于实现餐饮行业的AI发展模式,领导希望采集一些餐饮数据来提供理论支持.所以没多少头发的我 ,被喊过来做数据收集. 想到餐饮数据的收集,第一反应是去爬取美团/大众点评的数据,对比了下美大众点 ...
- 爬取大众点评页面数据教程,图片文字如何爬取
大众点评的商家地址和详细分类,居然是用svg图形展示的文字,哇,真是用心良苦,为了反爬,可谓是脑洞大开啊,图形文字.滑块验证码.封ip,全都用上了,真是让人头疼.不过正所谓道高一尺,魔高一丈,没有达不 ...
- python爬取大众点评_浅谈python爬取58同城,大众点评这两个网站
1.爬取58同城租房网遇到的坑:我爬了一页数据被封了ip,此时的我是非常的不爽,才十几条数据就封我,于是我就想着一定得找ip代理来解决这个问题,后面就写了个ip代理去弄,另外把之前头部信息ua改成了u ...
- Python,requests爬虫,使用代理爬取大众点评(含爬取结果。。。在文末)
由于在工作中,客户需要大众点评的行业数据,因此本人使用Python对大众点评网站进行了爬取,虽然在爬取之前就想好了可能会遇到的坑,但是没想要从坑中爬出来这么难.本次大众点评爬虫代码编写耗时一个月.也算 ...
- python爬虫实战---爬取大众点评评论
python爬虫实战-爬取大众点评评论(加密字体) 1.首先打开一个店铺找到评论 很多人学习python,不知道从何学起. 很多人学习python,掌握了基本语法过后,不知道在哪里寻找案例上手. 很多 ...
- python爬取大众点评数据_python爬虫实例详细介绍之爬取大众点评的数据
python 爬虫实例详细介绍之爬取大众点评的数据 一. Python作为一种语法简洁.面向对象的解释性语言,其便捷性.容易上手性受到众多程序员的青睐,基于python的包也越来越多,使得python ...
- 反反爬虫之--爬取大众点评--店铺名称、详址、经纬度、评价人数、平均消费等信息
every blog every motto: Let's be loyal to our ideals, let's face reality-Chegwara 前言: 知难不难! 折腾了几天爬取大 ...
最新文章
- Ansible01-Ansible基础和部署
- mysql最左侧原则的深入理解
- MySQL 全文索引实现简单版搜索引擎
- centos文件服务器软件,seafile服务器端的centos8的快速部署
- C#获取本机名及IP地址
- Maven的pom.xml文件详解------Environment Settings
- 【转】c# 协变与抗变
- python 问题自动匹配解决方案_最好的 Python IDE,你们推荐使用哪一个?
- Happy Birthday to You
- 几招叫你如何防止卡巴斯基Key被封
- 三年开发转行测试没人要
- Java中PDF转WORD
- u盘超级加密3000使用方法
- RTP/RTCP工程实践与问题解决方案(合集)
- Java编程初学者看什么书籍比较合适?
- 计算机ppt总结,计算机基础课件总结.ppt
- 测试用例设计方法(一)
- 51单片机驱动——LCD1602
- 【网络工程师路由篇】——OSPF Stub区域(思科模拟器)
- 程序烧录器STLINK_V2CMSIS_DAP_V2制作——DIY方案分享