餐饮数据的采集

  • 实验环境
  • 实验内容
  • 实验过程
    • 一、分析网页结构
    • 二、爬虫源码
    • 三、采集的数据

实验环境

Windows 8.1
python3.6
Pycharm2018

实验内容

编写爬虫从美团网站上爬取平顶山的餐饮行业的信息,本次分析挖掘所要爬取的网页数据如下:
数据包括餐饮店的名称、详细地址、最高价、最低价、平均价、经度、维度、餐饮店的类型、平均评分、点赞数、菜式类别、所在区域名称等十二个维度。

实验过程

一、分析网页结构

打开美团,搜索平顶山美食相关网页,默认显示的是平顶山所有美食信息。

二、爬虫源码

# -*- coding:utf8 -*-from bs4 import BeautifulSoup
import urllib.request
import random
import jsondef write_to_file(oneinfo):f = open(u"d://食物数据.txt", "a")f.write("%s, %s, %s, %s, %s, %s, %s, %s, %s, %s, %s\n"%(oneinfo[0].strip(), oneinfo[1].strip(), oneinfo[2], oneinfo[3],oneinfo[4], oneinfo[5], oneinfo[6], oneinfo[7],oneinfo[8], oneinfo[9], oneinfo[10]))f.close()def parse_json(data):if 'data' in data.keys():data_all = data['data']['searchResult']print(data_all)for data in data_all:detail_info = []title = data['title']detail_info.append(title)address = data['address']detail_info.append(address)lowestprice = data['lowestprice']detail_info.append(lowestprice)avgprice = data['avgprice']detail_info.append(avgprice)lat = data['latitude']detail_info.append(lat)lon = data['longitude']detail_info.append(lon)showtype = data['showType']detail_info.append(showtype)avgscore = data['avgscore']detail_info.append(avgscore)comments = data['comments']detail_info.append(comments)backCateName = data['backCateName']detail_info.append(backCateName)areaname = data['areaname']detail_info.append(areaname)print(detail_info)write_to_file(detail_info)# 用户代理池
uapools = ["Mozilla/5.0 (Windows NT 6.3; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/53.0.2785.104 Safari/537.36 Core/1.53.4620.400 QQBrowser/9.7.13014.400","Mozilla/5.0 (Windows NT 6.3; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/52.0.2723.3 Safari/537.36"
]def get_header():ua = random.choice(uapools)header = {"User-Agent": ua}return headerdef download_html():flag = 0header = get_header()for i in range(0, 640, 32):url = 'http://apimobile.meituan.com/group/v4/poi/pcsearch/237?uuid=0675d4c8382c4f919be6.1527127047.1.0.0&userid=-1&limit=32&offset='+str(i)+'&cateId=1&q=%E5%B9%B3%E9%A1%B6%E5%B1%B1&sort=default&areaId=-1'try:if flag % 5 == 0:header = get_header()opener = urllib.request.build_opener()opener.addhandlers = [header]urllib.request.install_opener(opener)data_string = urllib.request.urlopen(url).read().decode('utf8', 'ignore')data_json = json.loads(data_string)print(data_json)parse_json(data_json)print(url + "    爬取完成")except Exception as err:print("出现错误: "+str(err))print(url)flag = flag + 1if __name__ == '__main__':download_html()

三、采集的数据

用爬虫采集的数据直接存入txt文件里,数据如下:

将原始数据导入excel中,如下:

txt格式数据下载:
excel格式数据下载:

欢迎加入大数据学习交流群,一起交流学习!

餐饮数据的分析与挖掘(1)——数据采集相关推荐

  1. 医疗大数据的分析和挖掘发展现状以及未来的应用前景

    本文来自网易云社区. 大数据的分析和挖掘在医疗领域的应用包含很多的方向,比如临床操作的比较效果研究.临床决策支持系统.医疗数据透明度.远程病人监控.对病人档案的先进分析:临床试验数据分析.个性化治疗. ...

  2. 云计算,不仅仅是数据的存储计算,更应该是数据的分析、挖掘计算- 电饭锅产业技术路线图发布:明晰发展方向

    注:个人感觉,电饭锅做饭好吃外,智能是一大需求.不光定时就完了,还要能远程控制,更要能支持云,这样电饭锅将用户的各种习惯.数据上传到云,在云端进行统计分析,然后向电饭锅下达指令,或者提示用户,这个月天 ...

  3. 云计算,不仅仅是数据的存储计算,更应该是数据的分析、挖掘计算- 电饭锅产业技术路线图发布:明晰发展方向...

    注:个人感觉,电饭锅做饭好吃外,智能是一大需求.不光定时就完了,还要能远程控制,更要能支持云,这样电饭锅将用户的各种习惯.数据上传到云,在云端进行统计分析,然后向电饭锅下达指令,或者提示用户,这个月天 ...

  4. 二手房数据的分析与挖掘(七)-- 预测房价

    实验环境 Windows7 Anaconda3 pandas numpy 实验内容 在Jupyter notebook中利用numpy.pandas进行数据和模型的加载,利用模型来预测房价. 实验步骤 ...

  5. 医疗大数据的分析和挖掘发展现状如何?

    医疗数据挖掘近些年非常火爆,相关的论文也层出不穷.我整理了5篇医疗数据挖掘领域的论文,分享给大家,后面附有pdf下载. 另外还给大家准备了<医疗数据挖掘顶会写作方法> 扫码加我,回复&qu ...

  6. 第二篇:智能电网(Smart Grid)中的数据工程与大数据案例分析

    前言 上篇文章中讲到,在智能电网的控制与管理侧中,数据的分析和挖掘.可视化等工作属于核心环节.除此之外,二次侧中需要对数据进行采集,数据共享平台的搭建显然也涉及到数据的管理.那么在智能电网领域中,数据 ...

  7. 医疗行业大数据医疗分析案例

    某公司国家863项目申请计划书,有幸参与其中,现将部分构思设想与大家分享,希望可以获得更多的交流. 1.主要研究技术内容的国内外发展现状与趋势 2013年是世界大数据元年,基于大数据的信息挖掘引发了医 ...

  8. 京津冀大数据产业发展分析报告 | 附全文下载

     近日,在天津举办的第二届世界智能大会大数据产业发展高峰论坛上,中国经济信息社.京津冀大数据联盟及荣程祥泰集团联合发布了 2017 年京津冀大数据产业发展分析报告. 报告介绍了大数据技术在全球与全 ...

  9. Python 数据分析微专业课程--项目06 城市餐饮店铺选址分析

    1.项目说明 通过对上海餐饮数据的分析,选择相对较好的餐饮类型和地段开店 2.项目具体要求 从三个维度"口味"."人均消费"."性价比"对不 ...

最新文章

  1. R语言使用table1包绘制(生成)三线表、使用单变量分列构建三线表、为指定变量添加单位信息、自定义overall的标签名称
  2. Paper:《NÜWA: Visual Synthesis Pre-training for Neural visUal World creAtion,女娲:用于神经视觉世界创造的视觉》翻译与解读
  3. vue2实现自定义样式radio单选框
  4. 文章采集伪原创工具_卓尔博通|如何把伪原创文章变成原创
  5. 深度学习语义分割理论与实战指南
  6. C# 正则表达式类 Match类和Group类
  7. 新mac 下第一次 安装 mongodb 步骤
  8. mysql sql 片段_MySQL代码片段
  9. 正则数字字母下划线至少两种_8085微处理器中至少两个8位数字
  10. namenode单节点解决方案
  11. 2.0、Android Studio编写你的应用
  12. Ubuntu OpenCV 自定义环境变量 pkg-config / PKGCONFIGPATH
  13. Xtrabackup2.4.8备份、还原、恢复Mysql5.7.19实操
  14. java之RestTemplate的访问应用
  15. 【clion】自定义优美的代码配色(主题)
  16. nvidia jetson xavier打开风扇,并设置开机启动
  17. phalapi init.php,PhalApi:[1.12] 参数规则:接口参数规则配置
  18. Oracle Newsletter闪亮人物推介--Joel Perez
  19. 网易的换邮箱手机号流程
  20. 大数据云计算学习路线

热门文章

  1. linux目录和cat命令
  2. css画钟表_利用css+原生js制作简单的钟表
  3. C语言的关键字和标识符
  4. 【游戏面包屑】简单的导航栏设计
  5. “Google chrome”,安卓和苹果版本,以及他的版本历史真是绚丽啊!
  6. 手把手教你TSYS建站
  7. Python中的pillow(PIL)
  8. 3.利用PageRank(重启随机游走)预测蛋白质相互作用
  9. 微信支付SDK的使用
  10. 使用基本线条库进行码绘