Datawhale干货

作者:皮钱超,厦门大学,Datawhale原创作者

本文约3000字,建议阅读9分钟

审稿人:阿泽,Datawhale成员,复旦大学计算机硕士,目前在携程担任高级算法工程师。

最近在一个相对比较知名的房源网站上爬取了一份深圳各个区的租房信息,总共获得了2000*12的数据集。

在获得了相应的数据之后,利用Python的第三方库pandas进行前期的数据清洗工作,最后可视化库plotly绘制了相应的可视化图形进行了展示,并且得到了一些租房的结论,供租房者参考,自己对深圳的租房也有了一定的认识。

  • 爬虫数据获取

  • 数据清洗处理

  • 数据可视化展示

  • 得到结论

一、数据爬取

本文中获得的数据是自己通过爬虫从网上获取的。这个房源没有太多的反爬虫措施,所以爬取的过程没有遇到困难,比较顺利。数据集已打包,后台回复关键词 租房 下载。以下代码供参考。

1.1 导入各种库

首先,我们需要导入各种库,具体如下:

1.2 代码

下面????是整个爬虫的源代码,主要是包含了以下几方面的信息:

  • 在爬虫过程中需要设置请求头,伪装成浏览器的操作

  • 如何利用Xpath进行数据解析

  • 如何将Python中的字典类型数据转成json类型数据,主要是掌握json包的使用

  • 获取到数据后,使用xlwt进行数据的保存

二、数据处理

2.1 数据的读取

上面的数据保存成了excel数据,我们直接通过pandas的read_excel来进行数据的读取

2.2 字段含义

下面????对每个爬取的每个字段对应的含义进行了解释:

"""
name: 小区的名字
layout:户型
location:朝向
size:房子建筑面积大小
sizeInside:套内面积大小
zhuangxiu:精装、豪装、普装、毛坯
numberFloor:楼层数
time:建成时间
zone:区
position:所在区的具体位置
money:价格
way:出租方式(整租或者合租)
"""

2.3 原始数据信息

首先我们查看下数据的原始信息:

  • 数据类型

  • 是否有缺失值

2.4 删除缺失值

使用的是dropna函数,两个重要的参数:

  • axis:0表示行,1表示列

  • how:any表示至少有一个缺失值,all表示必须全部为缺失值

三、字段处理

3.1 为何处理

对于我们已经获取到的数据字段,针对其中的某些字段,我们处理的只是其中某些信息,所以我们需要将它们从原始数据中提取出来再处理

3.2 处理方法

在这里介绍3种方法来处理数据:

  1. 通过向apply方法传入我们处理的函数或者方法

  2. 通过正则表达式来处理

  3. 通过replace方法来处理

3.3 处理前后对比

我们看下处理前的前5条数据:

处理之后我们增加了一个room字段,表示的是多少个房间

在经过处理之后,数据的类型也发生了变化:

四、基于单个特征的分析

4.1 租房方式-way

首先对整个租房方式进行了处理和可视化展示,从下面的饼图中直接看出来:接近100%的房东选择整租的方式

结论1:房东更愿意整租

4.2 区域-zone

第二,我们对比每个区的房源情况,从下面的饼图中,可以得到以下 结论2:

  1. 福田区作为深圳的CBD,平安大厦所在地,房源是最多的

  2. 龙华和龙岗两个区是老的工业区,房源也非常多,听说价格也相对便宜

  3. 南山区作为互联网科技中心,房源紧随其后,价格相对就较高

  4. 坪山、盐田、光明这3个去相对落后,房源相对少些

4.3 装修方式-zhuangxiu

接下来对各种装修方式的房源进行对比分析。其中颜色表示的是各个区的房源数量,数量越多越接近蓝色

很明显:房子的装修风格还是在精装普装

4.4 房子方位-location

接下来我们统计房源中每个房子的朝向,找出哪些朝向的房子更受欢迎。

通过饼图我们可以得到如下结论。

结论3:朝南、朝南北、朝北3种方位的朝向显然更受欢迎。

4.5 居室个数-room

在房东提供的房源中,每个房子的房间数量不尽相同,分析统计每个房子的房间数量。

很明显的结论4:

房子中房间数量为3,2,1的房子是非常多的

五、行政区对房价的影响

接下来我们通过人力图来分析不同的行政区对房价的影响。通过热力图得到如下的结论5:

  1. 南山区作为互联网科技中心,福田区作为CBD中心,房价偏高

  2. 光明、坪山、盐田3个区相对落后,房价偏低

以上两个结论和实际情况也是符合的

六、房价与时间关系

在不同年份建成的房子,价格肯定是不同的,也造成了房子的出租价格不同。本节中分析房子的老旧(建成时间)对房租的影响

6.1 关内和关外

在很多年之前,深圳的行政区从区的城市建设风貌、市政管理、繁华程度等分为有关内和关外的说法

  • 关内:福田、南山、罗湖、盐田

  • 关外:宝安、龙岗、龙华、光明新区、坪山、大鹏

这种叫法目前是不存在了,但是每个区的经济实力不尽相同是不争的事实

6.2 关内

通过观察关内的数据分布,可以看到:

  • 南山和福田两个区的价格是明显高于盐田和罗湖的

  • 南山的平均价格在2w左右

  • 盐田区的整体价格偏低

  • 罗湖区的价格较稳定,波动很小

image-20200703201131031

6.3 关外

  • 关外的价格明显是低于关内的

  • 龙岗和宝安会偶尔出现高价的房源

  • 光明和坪山的价格整体偏低

七、多特征的可视化

在这里以南山区进行分析,具体过程为:

  1. 得到我们绘图的数据

  2. 做出散点图和其他多特征的图形

7.1 作图数据

先处理绘图需要的数据

7.2 多特征-多图

为了分析某个区中房源分布、价格分布、楼层数等多因素对房租价格的影响,我们选择了南山区进行分析:

得到如下几点结论:

  1. 南山区的后海和南油、蛇口是南山区的租房热门地点

  2. 南山区的房子个数中2个最多,3个和1个其次

  3. 价格在10k左右的房源数量是最多的

数据项目总结 -- 深圳租房数据分析!相关推荐

  1. 数据项目总结 -- 深圳租房数据分析

    @R星校长 最近在一个相对比较知名的房源网站上爬取了一份深圳各个区的租房信息,总共获得了2000*12的数据集. 在获得了相应的数据之后,利用Python的第三方库pandas进行前期的数据清洗工作, ...

  2. 数据预处理 1.5 租房数据分析实例

    目录 租房数据分析实例 1 数据加载和查看 1.1 加载LJdata.csv数据集 1.2查看house_data数据的列标签 1.3重新设置house_data的行标签 1.4查看house_dat ...

  3. 大数据项目实战——电信业务大数据分析系统

    基于大数据与hadoop的电信业务大数据分析系统 项目源代码:https://github.com/2462612540/Big_Data_Spark_Scala_hadoop/tree/master ...

  4. 大数据学习之路111-大数据项目(中国移动运营数据分析一)

    业务二: 统计每个省份的充值失败数据量,并以地图的方式显示分布情况. 数据说明: 充值的整个过程是包括: 订单创建->支付请求->支付通知->充值请求->充值通知 而我们需要处 ...

  5. 数据项目总结 - 租房数据分析(完整篇)

    Datawhale干货 作者:皮钱超,厦门大学,Datawhale成员 深圳租房数据分析完整篇 从2020年11月发表第一篇深圳租房数据分析的文章,到这篇基于深度学习框架Keras的建模分析和预测,在 ...

  6. 数据挖掘与数据分析项目链家租房数据(一)数据爬虫

    数据挖掘与数据分析项目链家租房数据(一)数据爬虫 今日无聊将一个过去做的链家数据分析项目弄上来,当时是某面试,三天时间完成,主要是供大家抄代码和分享一下思考点,这一章是爬虫部分. 网站原图 结果截图 ...

  7. 深圳租房数据可视化分析【Plotly库绘图】

    深圳租房数据可视化分析[plotly库绘图] 一.技术介绍 1.可视化技术支持来源: 2.选择plotly理由: 二.代码实现及分析: 1.导入库及解读数据集: 2.数据清洗与转换 3.统计数据 4. ...

  8. 链家网北京市租房数据分析(二)——基于python的数据可视化

    本次分析的数据为爬取链家网租房首页的3000余条整租房源数据.数据量较小,分析结果难免存在偏差,本分析报告仅作为实战项目展示.本报告中所描述的平均租金指单套房源租金的中位数. 数据源可至百度网盘提取, ...

  9. 大数据项目开发hadoop集群搭建 python爬取前程无忧招聘网信息以及进行数据分析和数据可视化

    大数据项目开发实训报告 一.Hadoop环境搭建 1: jdk的安装 1):在linux系统下的opt目录下创建software 和 module 两个目录 2):利用filezilla工具将 jdk ...

最新文章

  1. 程序员为什么会有职业瓶颈?
  2. Android 多屏显示分析
  3. [音乐欣赏]Craigie Hill
  4. [收集] 经典C/C++面试题(三)
  5. 选购个人计算机小结,计算机实训小结精选 .doc
  6. imp导入前对当前用户清库脚本
  7. python爬虫记录时间_Python新手写爬虫全过程记录分析
  8. 白皮书丨关于工业互联网,你想知道的都在这儿
  9. text-transform 文本大小写转换、input checkbok 大小设置、letter-spacing 设置字符间距
  10. MSP430的JTAG接口和BSW接口
  11. 【带书签】零基础学SQL.pdf(孙浏毅 等著) 下载
  12. RS485自动切换电路:数据收发原理
  13. Revisit Knowledge Distillation: a Teacher-free Framework
  14. ipv6无网络访问权限可行解决方案
  15. 金蝶系统登不上服务器270,电脑进不了金蝶软件,显示Automation错误270
  16. 国产etl 与 ODI
  17. 米的换算单位和公式_英寸和厘米的换算、英尺和米的换算及英寸和毫米的单位换算公式...
  18. 云原生大数据平台零信任网络安全实践技术稿
  19. 一些浏览器播放视频的时候进度条有动,画面是空白的
  20. Javascript 检测键盘按键

热门文章

  1. 【Python应用】爬取LOL皮肤图片(面向过程编程)
  2. 解密http请求头的Host,Referer,Origin背后的含义:
  3. 勒索预警,近期一大波新型勒索病毒来袭
  4. udp和tcp的应用
  5. 重走长征路---OI每周刷题记录---11月16日 2013
  6. linux epel7安装,在CentOS6.x或CentOS7.x上安装EPEL Repo,Extra Packages for Enterprise Linux (EPEL)...
  7. 俞老师在同济大学的演讲词:度过有意义的生命
  8. 汇编语言学习(二)------指令系统与寻址方式
  9. 和谐交易形态大全(附图文)
  10. Apache Jmeter 教程