大众点评 爬虫 python_[Python爬虫练习]大众点评会员榜
想了解一下吃货身上都有些什么特质。可以抓取点评的会员数据进行分析。
一、URL分析
这个是全国的会员榜,TOP300的吃货都在这里:
http://www.dianping.com/memberlist/0/0
分析一下URL,要找各城市的会员榜,memberlist后面跟的第一个数字即是城市ID,如南京是5,下面URL就南京的会员榜,分页即可得到这个城市前300名的会员。
http://www.dianping.com/memberlist/5
从列表页得到会员详情页的链接。
二、分析一下要抓取的会员信息
在列表页,首先要获到会员的URL,点评数、第一个点评、回应数和鲜花,这些应该是会员排名的重要数据。
在详情页,有比较多有意思的数据(隐私数据):
性别、地点
标签(如 吃货、购物狂、旅行等)
社区活跃数据
点评数、收藏数、签到数、图片数,
贡献值,等级
关注、粉丝、互动
个人信息和兴趣相关数据
注册时间,最后登录时间
体型
生日、星座、恋爱状况
毕业大学
爱好
喜欢的电影,书/作者
喜欢的菜肴/菜系/餐厅
我抓取的数据字段:
class FoodieItem(Item):
url = Field()
nickname = Field()
comment_num = Field()
comment_first = Field()
comment_response = Field()
flower = Field()
level = Field()
location = Field()
gender = Field()
rank = Field()
contribution = Field()
loc_check= Field() # 签到
collect_num = Field() #收藏数
pic_num = Field()
note_num = Field()
reg_time = Field()
fans = Field()
interaction = Field()
tags = Field()
shops = Field() # 商户数
shape = Field()
love_situation = Field() #恋爱状况
birthday = Field()
occupation = Field()
college = Field()
hobby = Field()
foodtype = Field()
star_sign = Field() #星座
数据分据文章请稍后。
大众点评 爬虫 python_[Python爬虫练习]大众点评会员榜相关推荐
- python爬虫百科-python爬虫百科
广告关闭 腾讯云双11爆品提前享,精选热门产品助力上云,云服务器首年88元起,买的越多返的越多,最高满返5000元! 专业点来说就是应用多台机器同时实现爬虫任务,这多台机器上的爬虫,就是称作分布式爬虫 ...
- python爬虫工程师-Python爬虫工程师
课程概况 3个月精通Python爬虫工程师核心技能. 从入门到进阶,知识点全覆盖,配套实战练习. 包含课程 入门篇 Python编程环境配置及基础语法 掌握Python基础语法及虫技能,利用Pytho ...
- 超级简单的Python爬虫教程,python爬虫菜鸟教程官网
毫无基础的人如何入门 Python ? Python是一种计算机程序设计语言.你可能已经听说过很多种流行的编程语言,比如非常难学的C语言,非常流行的Java语言,适合初学者的Basic语言,适合网页编 ...
- python爬虫图片-python爬虫(爬取图片)
python爬虫爬图片 第一步 载入爬虫模块 from requests_html import HTMLSession #载入爬虫模块 第二步 创建session对象 from requests_h ...
- python 爬虫实例-Python 爬虫:Scrapy 实例(二)
原标题:Python 爬虫:Scrapy 实例(二) 稍微增加点难度,做个所需项目多一点的,并将的结果以多种形式保存起来.我们就从网络天气预报开始. 首先要做的是确定网络天气数据的来源.打开百度,搜索 ...
- python爬虫下载-python爬虫之下载文件的方式总结以及程序实例
python爬虫之下载文件的方式以及下载实例 目录 第一种方法:urlretrieve方法下载 第二种方法:request download 第三种方法:视频文件.大型文件下载 实战演示 第一种方法: ...
- python爬虫工资-Python爬虫实战-数据可视化
本文您将学到的东西包括: scrapy爬虫的设置 requests(一个用来发送HTTP请求的简单库) BeautifulSoup(一个从HTML和XML中解析数据的库) MongoDB的用法 Mon ...
- python爬虫案例-python爬虫详细解析附案例
什么是爬虫框架 说这个之前,得先说说什么是框架: 是实现业界标准的组件规范:比如众所周知的MVC开发规范 提供规范所要求之基础功能的软件产品:比如Django框架就是MVC的开发框架,但它还提供了其他 ...
- python爬虫招聘-Python爬虫抓取智联招聘(基础版)
原标题:Python爬虫抓取智联招聘(基础版) 作者:C与Python实战 「若你有原创文章想与大家分享,欢迎投稿.」 对于每个上班族来说,总要经历几次换工作,如何在网上挑到心仪的工作?如何提前为心仪 ...
最新文章
- ocr智能图文识别 tess4j 图文,验证码识别
- optee中关于异常向量表、中断等的深入思考
- vooc是什么快充协议_5G时代除了网速,快充同样重要!
- 直播报名 | CUDA优化:高性能库cuBLAS使用指南
- tutorial_coreos 01-01-install 2015-05-27
- 数据结构小总结(成都磨子桥技工学校数据结构前12题)
- go 二进制程序守护_图解 Go 程序是怎样跑起来的
- 唏嘘!一代手机OS退场:没生态、没开发者是失败主因
- 【kafka】kafka broker 限流 topic 限流 配额
- mysql中交集,并集,差集,左连接,右连接
- eclipse + JBoss 5 + EJB3开发指南(3):使用Session Bean的本地接口
- BP神经网络算法:将参数矩阵向量化
- 实验3-5 查询水果价格 (15 分)
- 在 Windows 中保存和恢复桌面图标布局
- 基于三周加速度传感器的计步器设计
- 在微信群里定时报体温
- aect17定义_AECT-05定义与94定义的区别?
- 视频转GIF+GIF录制
- 自助取款机系统(python+mysql+GUI)
- 安卓开发--Eclipse搭建开发环境