想了解一下吃货身上都有些什么特质。可以抓取点评的会员数据进行分析。

一、URL分析

这个是全国的会员榜,TOP300的吃货都在这里:

http://www.dianping.com/memberlist/0/0

分析一下URL,要找各城市的会员榜,memberlist后面跟的第一个数字即是城市ID,如南京是5,下面URL就南京的会员榜,分页即可得到这个城市前300名的会员。

http://www.dianping.com/memberlist/5

从列表页得到会员详情页的链接。

二、分析一下要抓取的会员信息

在列表页,首先要获到会员的URL,点评数、第一个点评、回应数和鲜花,这些应该是会员排名的重要数据。

在详情页,有比较多有意思的数据(隐私数据):

性别、地点

标签(如 吃货、购物狂、旅行等)

社区活跃数据

点评数、收藏数、签到数、图片数,

贡献值,等级

关注、粉丝、互动

个人信息和兴趣相关数据

注册时间,最后登录时间

体型

生日、星座、恋爱状况

毕业大学

爱好

喜欢的电影,书/作者

喜欢的菜肴/菜系/餐厅

我抓取的数据字段:

class FoodieItem(Item):

url = Field()

nickname = Field()

comment_num = Field()

comment_first = Field()

comment_response = Field()

flower = Field()

level = Field()

location = Field()

gender = Field()

rank = Field()

contribution = Field()

loc_check= Field() # 签到

collect_num = Field() #收藏数

pic_num = Field()

note_num = Field()

reg_time = Field()

fans = Field()

interaction = Field()

tags = Field()

shops = Field() # 商户数

shape = Field()

love_situation = Field() #恋爱状况

birthday = Field()

occupation = Field()

college = Field()

hobby = Field()

foodtype = Field()

star_sign = Field() #星座

数据分据文章请稍后。

大众点评 爬虫 python_[Python爬虫练习]大众点评会员榜相关推荐

  1. python爬虫百科-python爬虫百科

    广告关闭 腾讯云双11爆品提前享,精选热门产品助力上云,云服务器首年88元起,买的越多返的越多,最高满返5000元! 专业点来说就是应用多台机器同时实现爬虫任务,这多台机器上的爬虫,就是称作分布式爬虫 ...

  2. python爬虫工程师-Python爬虫工程师

    课程概况 3个月精通Python爬虫工程师核心技能. 从入门到进阶,知识点全覆盖,配套实战练习. 包含课程 入门篇 Python编程环境配置及基础语法 掌握Python基础语法及虫技能,利用Pytho ...

  3. 超级简单的Python爬虫教程,python爬虫菜鸟教程官网

    毫无基础的人如何入门 Python ? Python是一种计算机程序设计语言.你可能已经听说过很多种流行的编程语言,比如非常难学的C语言,非常流行的Java语言,适合初学者的Basic语言,适合网页编 ...

  4. python爬虫图片-python爬虫(爬取图片)

    python爬虫爬图片 第一步 载入爬虫模块 from requests_html import HTMLSession #载入爬虫模块 第二步 创建session对象 from requests_h ...

  5. python 爬虫实例-Python 爬虫:Scrapy 实例(二)

    原标题:Python 爬虫:Scrapy 实例(二) 稍微增加点难度,做个所需项目多一点的,并将的结果以多种形式保存起来.我们就从网络天气预报开始. 首先要做的是确定网络天气数据的来源.打开百度,搜索 ...

  6. python爬虫下载-python爬虫之下载文件的方式总结以及程序实例

    python爬虫之下载文件的方式以及下载实例 目录 第一种方法:urlretrieve方法下载 第二种方法:request download 第三种方法:视频文件.大型文件下载 实战演示 第一种方法: ...

  7. python爬虫工资-Python爬虫实战-数据可视化

    本文您将学到的东西包括: scrapy爬虫的设置 requests(一个用来发送HTTP请求的简单库) BeautifulSoup(一个从HTML和XML中解析数据的库) MongoDB的用法 Mon ...

  8. python爬虫案例-python爬虫详细解析附案例

    什么是爬虫框架 说这个之前,得先说说什么是框架: 是实现业界标准的组件规范:比如众所周知的MVC开发规范 提供规范所要求之基础功能的软件产品:比如Django框架就是MVC的开发框架,但它还提供了其他 ...

  9. python爬虫招聘-Python爬虫抓取智联招聘(基础版)

    原标题:Python爬虫抓取智联招聘(基础版) 作者:C与Python实战 「若你有原创文章想与大家分享,欢迎投稿.」 对于每个上班族来说,总要经历几次换工作,如何在网上挑到心仪的工作?如何提前为心仪 ...

最新文章

  1. ocr智能图文识别 tess4j 图文,验证码识别
  2. optee中关于异常向量表、中断等的深入思考
  3. vooc是什么快充协议_5G时代除了网速,快充同样重要!
  4. 直播报名 | CUDA优化:高性能库cuBLAS使用指南
  5. tutorial_coreos 01-01-install 2015-05-27
  6. 数据结构小总结(成都磨子桥技工学校数据结构前12题)
  7. go 二进制程序守护_图解 Go 程序是怎样跑起来的
  8. 唏嘘!一代手机OS退场:没生态、没开发者是失败主因
  9. 【kafka】kafka broker 限流 topic 限流 配额
  10. mysql中交集,并集,差集,左连接,右连接
  11. eclipse + JBoss 5 + EJB3开发指南(3):使用Session Bean的本地接口
  12. BP神经网络算法:将参数矩阵向量化
  13. 实验3-5 查询水果价格 (15 分)
  14. 在 Windows 中保存和恢复桌面图标布局
  15. 基于三周加速度传感器的计步器设计
  16. 在微信群里定时报体温
  17. aect17定义_AECT-05定义与94定义的区别?
  18. 视频转GIF+GIF录制
  19. 自助取款机系统(python+mysql+GUI)
  20. 安卓开发--Eclipse搭建开发环境

热门文章

  1. Android逆向 某州 解密sign字段 so层 算法分析 Unidbg模拟执行
  2. cassandra安装及配置
  3. 中文垂直搜索引擎、行业搜索引擎大全
  4. 切绳子(二分,c语言)
  5. 本地宝js爬虫(附代码)
  6. oracle 口令修改,Oracle更改口令
  7. 分布式 PostgreSQL 集群(Citus)官方示例 - 多租户应用程序实战
  8. 嵌入式系统工程专业就业方向与前景分析
  9. 嵌入式系统工程化设计4
  10. bat ping 返回值_bat教程[273] print命令的用法