餐饮数据的分析与挖掘(1)——数据采集
餐饮数据的采集
- 实验环境
- 实验内容
- 实验过程
- 一、分析网页结构
- 二、爬虫源码
- 三、采集的数据
实验环境
Windows 8.1
python3.6
Pycharm2018
实验内容
编写爬虫从美团网站上爬取平顶山的餐饮行业的信息,本次分析挖掘所要爬取的网页数据如下:
数据包括餐饮店的名称、详细地址、最高价、最低价、平均价、经度、维度、餐饮店的类型、平均评分、点赞数、菜式类别、所在区域名称等十二个维度。
实验过程
一、分析网页结构
打开美团,搜索平顶山美食相关网页,默认显示的是平顶山所有美食信息。
二、爬虫源码
# -*- coding:utf8 -*-from bs4 import BeautifulSoup
import urllib.request
import random
import jsondef write_to_file(oneinfo):f = open(u"d://食物数据.txt", "a")f.write("%s, %s, %s, %s, %s, %s, %s, %s, %s, %s, %s\n"%(oneinfo[0].strip(), oneinfo[1].strip(), oneinfo[2], oneinfo[3],oneinfo[4], oneinfo[5], oneinfo[6], oneinfo[7],oneinfo[8], oneinfo[9], oneinfo[10]))f.close()def parse_json(data):if 'data' in data.keys():data_all = data['data']['searchResult']print(data_all)for data in data_all:detail_info = []title = data['title']detail_info.append(title)address = data['address']detail_info.append(address)lowestprice = data['lowestprice']detail_info.append(lowestprice)avgprice = data['avgprice']detail_info.append(avgprice)lat = data['latitude']detail_info.append(lat)lon = data['longitude']detail_info.append(lon)showtype = data['showType']detail_info.append(showtype)avgscore = data['avgscore']detail_info.append(avgscore)comments = data['comments']detail_info.append(comments)backCateName = data['backCateName']detail_info.append(backCateName)areaname = data['areaname']detail_info.append(areaname)print(detail_info)write_to_file(detail_info)# 用户代理池
uapools = ["Mozilla/5.0 (Windows NT 6.3; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/53.0.2785.104 Safari/537.36 Core/1.53.4620.400 QQBrowser/9.7.13014.400","Mozilla/5.0 (Windows NT 6.3; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/52.0.2723.3 Safari/537.36"
]def get_header():ua = random.choice(uapools)header = {"User-Agent": ua}return headerdef download_html():flag = 0header = get_header()for i in range(0, 640, 32):url = 'http://apimobile.meituan.com/group/v4/poi/pcsearch/237?uuid=0675d4c8382c4f919be6.1527127047.1.0.0&userid=-1&limit=32&offset='+str(i)+'&cateId=1&q=%E5%B9%B3%E9%A1%B6%E5%B1%B1&sort=default&areaId=-1'try:if flag % 5 == 0:header = get_header()opener = urllib.request.build_opener()opener.addhandlers = [header]urllib.request.install_opener(opener)data_string = urllib.request.urlopen(url).read().decode('utf8', 'ignore')data_json = json.loads(data_string)print(data_json)parse_json(data_json)print(url + " 爬取完成")except Exception as err:print("出现错误: "+str(err))print(url)flag = flag + 1if __name__ == '__main__':download_html()
三、采集的数据
用爬虫采集的数据直接存入txt文件里,数据如下:
将原始数据导入excel中,如下:
txt格式数据下载:
excel格式数据下载:
欢迎加入大数据学习交流群,一起交流学习!
餐饮数据的分析与挖掘(1)——数据采集相关推荐
- 医疗大数据的分析和挖掘发展现状以及未来的应用前景
本文来自网易云社区. 大数据的分析和挖掘在医疗领域的应用包含很多的方向,比如临床操作的比较效果研究.临床决策支持系统.医疗数据透明度.远程病人监控.对病人档案的先进分析:临床试验数据分析.个性化治疗. ...
- 云计算,不仅仅是数据的存储计算,更应该是数据的分析、挖掘计算- 电饭锅产业技术路线图发布:明晰发展方向
注:个人感觉,电饭锅做饭好吃外,智能是一大需求.不光定时就完了,还要能远程控制,更要能支持云,这样电饭锅将用户的各种习惯.数据上传到云,在云端进行统计分析,然后向电饭锅下达指令,或者提示用户,这个月天 ...
- 云计算,不仅仅是数据的存储计算,更应该是数据的分析、挖掘计算- 电饭锅产业技术路线图发布:明晰发展方向...
注:个人感觉,电饭锅做饭好吃外,智能是一大需求.不光定时就完了,还要能远程控制,更要能支持云,这样电饭锅将用户的各种习惯.数据上传到云,在云端进行统计分析,然后向电饭锅下达指令,或者提示用户,这个月天 ...
- 二手房数据的分析与挖掘(七)-- 预测房价
实验环境 Windows7 Anaconda3 pandas numpy 实验内容 在Jupyter notebook中利用numpy.pandas进行数据和模型的加载,利用模型来预测房价. 实验步骤 ...
- 医疗大数据的分析和挖掘发展现状如何?
医疗数据挖掘近些年非常火爆,相关的论文也层出不穷.我整理了5篇医疗数据挖掘领域的论文,分享给大家,后面附有pdf下载. 另外还给大家准备了<医疗数据挖掘顶会写作方法> 扫码加我,回复&qu ...
- 第二篇:智能电网(Smart Grid)中的数据工程与大数据案例分析
前言 上篇文章中讲到,在智能电网的控制与管理侧中,数据的分析和挖掘.可视化等工作属于核心环节.除此之外,二次侧中需要对数据进行采集,数据共享平台的搭建显然也涉及到数据的管理.那么在智能电网领域中,数据 ...
- 医疗行业大数据医疗分析案例
某公司国家863项目申请计划书,有幸参与其中,现将部分构思设想与大家分享,希望可以获得更多的交流. 1.主要研究技术内容的国内外发展现状与趋势 2013年是世界大数据元年,基于大数据的信息挖掘引发了医 ...
- 京津冀大数据产业发展分析报告 | 附全文下载
近日,在天津举办的第二届世界智能大会大数据产业发展高峰论坛上,中国经济信息社.京津冀大数据联盟及荣程祥泰集团联合发布了 2017 年京津冀大数据产业发展分析报告. 报告介绍了大数据技术在全球与全 ...
- Python 数据分析微专业课程--项目06 城市餐饮店铺选址分析
1.项目说明 通过对上海餐饮数据的分析,选择相对较好的餐饮类型和地段开店 2.项目具体要求 从三个维度"口味"."人均消费"."性价比"对不 ...
最新文章
- R语言使用table1包绘制(生成)三线表、使用单变量分列构建三线表、为指定变量添加单位信息、自定义overall的标签名称
- Paper:《NÜWA: Visual Synthesis Pre-training for Neural visUal World creAtion,女娲:用于神经视觉世界创造的视觉》翻译与解读
- vue2实现自定义样式radio单选框
- 文章采集伪原创工具_卓尔博通|如何把伪原创文章变成原创
- 深度学习语义分割理论与实战指南
- C# 正则表达式类 Match类和Group类
- 新mac 下第一次 安装 mongodb 步骤
- mysql sql 片段_MySQL代码片段
- 正则数字字母下划线至少两种_8085微处理器中至少两个8位数字
- namenode单节点解决方案
- 2.0、Android Studio编写你的应用
- Ubuntu OpenCV 自定义环境变量 pkg-config / PKGCONFIGPATH
- Xtrabackup2.4.8备份、还原、恢复Mysql5.7.19实操
- java之RestTemplate的访问应用
- 【clion】自定义优美的代码配色(主题)
- nvidia jetson xavier打开风扇,并设置开机启动
- phalapi init.php,PhalApi:[1.12] 参数规则:接口参数规则配置
- Oracle Newsletter闪亮人物推介--Joel Perez
- 网易的换邮箱手机号流程
- 大数据云计算学习路线