PartⅡ:数据可视化

  • 前言
  • 数据可视化
    • 深圳各区二手房情况
    • 房子朝向分布
    • 户型与总价的关系
    • 楼层与总价的关系
  • 结论
    • 房价分布情况
    • 总结
  • 参考文献

前言

根据上一篇文章,利用Python对房天下网站中深圳十个区的二手房房源信息进行了爬取,并保存到了本地。然后对数据集进行重复值检查、缺失值检查、分列处理、异常值检查等清洗操作,得到了新数据集,现对其进行可视化分析,研究深圳二手房房源的整体情况,并从分析结果给出相关建议。

数据可视化

深圳各区二手房情况

首先,本文从深圳各区二手房平均单价、平均总价和数量这三个方面入手,分别绘制各区的对比图如下:

#读取清洗后的数据
newdata2 = pd.read_excel(r"C:\Users\Administrator\OneDrive\桌面\数据清洗\aftercleandata.xls")# 绘制深圳各区二手房单价对比图
plt.figure(figsize=(10,5))
x = newdata2['区名'].unique()
y1 = round(newdata2.groupby(by=['区名'])['单价'].mean().sort_values(ascending=False),2)
ax = sns.barplot(x,y1,palette='Blues_r')
ax.set_title('深圳各区二手房平均单价对比')# 绘制深圳各区二手房总价对比图
plt.figure(figsize=(10,5))
x = newdata2['区名'].unique()
y2 = round(newdata2.groupby(by=['区名'])['总价'].mean().sort_values(ascending=False),2)
ax = sns.barplot(x,y2,palette='BuGn_r')
ax.set_title('深圳各区二手房平均总价对比')# 绘制深圳各区房子数量对比图
plt.figure(figsize=(10,5))
x = newdata2['区名'].unique()
y3 = round(newdata2.groupby(by=['区名']).size().sort_values(ascending=False),2)
ax = sns.barplot(x,y3,palette='Oranges_d')
ax.set_title('深圳各区二手房数量对比')


通过上述三幅图惊讶地发现各区二手房的平均单价、平均总价和数量都是一样的排列顺序,最高的是罗湖区,最低的是大鹏新区。罗湖区的总价比其他区的都要高100万左右,单价比其他区要高2000元左右,数量比其他区要高1000左右,推测原因是罗湖有关口,设施齐全,交通便利;而彭山区和大鹏新区均处于弱势,推测原因是作为正式成立不久的地区,正在进行大拆大建的进程中,二手房数量最少也能理解。

房子朝向分布

对于深圳二手房房源中的朝向,本文用Python中的pyecharts模块中的饼图进行绘制如下(图片保存为朝向分布.html,需要用浏览器打开):

#绘制房子朝向分布图(详见文件夹里的朝向分布.html[用浏览器打开])
position = ['东','南','西','北','东北','东南','西北','西南']
num = [580,3157,226,835,484,2374,527,773]
pie = Pie("朝向分布",title_pos='ceter',width=900,title_text_size=20)
pie.add("方向",position,num,center=[50,50],is_random=False,radius=[30,75],rosetype='area',is_legend_show=False,is_label_show=True,labe_text_size=20)
pie.render(path="朝向分布.html")


从结果可以看出,朝南、东南、北的房源是最多的,人们喜欢房屋坐北向南,因为这种房子采光好,顺光顺水,冬暖夏凉,适宜居住,同样促使开发商尽量开发朝南、朝北的房子,同时价格相对来说要贵一点。

户型与总价的关系

对于深圳二手房房源中的户型,本文统计了户型和总价两个变量,绘制出了布局排名前十的总价平均值:

#绘制户型排名前十与总价平均值的情况图
top_10 = newdata2.groupby(by=["布局"])["总价"].mean().sort_values(ascending=False)
plt.title("布局排名前十的总价平均值")
top_10.head(10).plot.barh(alpha=0.7,color=['#CD3700','#9ACD32','#7EC0EE','y','orange','#4876FF','#EEA9B8','#EE7942','#CD69C9','#668B8B'])
plt.grid(color='#DDA0DD',linestyle='--',alpha=0.5)
plt.show()


从结果可以看出,户型对总价影响比较大,不同的室、厅、卫又会产生不同的影响。通过计数统计,3室2厅的户型是最多的,符合中国人偏好3室的特点;其次是2室1厅,在老房子中也是很普遍。

楼层与总价的关系

对于深圳二手房房源中的楼层,本文对楼层进行了分组计数,其中发现有一行为地下室,数据量太少对研究意义不大,故删除。把剩余低、中、高楼层与总价绘制了箱线图:

#对楼层进行分组计数
newdata2.groupby(by=['楼层']).size()#存在一行数据为地下室
#把值为地下室的数据行剔除,不参与讨论
newdata2 = newdata2[~newdata2['楼层'].isin(['地下室'])]
newdata2.groupby(by=['楼层']).size()
#绘制楼层和总价的关系图
plt.figure(figsize=(10,8))
order = newdata2.groupby(by=["楼层"])["总价"].median().sort_values(ascending=False).index
sns.boxplot(x='楼层',y='总价',data=newdata2,width=0.3,notch=True,order=order)


从箱线图可以看出不同楼层对总价影响较小,三个楼层等级分布几乎相同。

结论

在对数据集进行可视化分析后,对于不同行政区、不同户型、不同朝向、不同楼层进行分析,对深圳二手房房源的大体情况有了一定的了解。进而,对所得到的所有可视化结果进行总结,并提出深圳购买二手房的策略和方向。

房价分布情况

对于深圳各区的二手房平均单价分布情况,借用Python代码计算,结果如下:

结合pyecharts中的Map绘制了深圳各区房价分布地图(图片保存为深圳房价地图.html,需要用浏览器打开):

#利用上述得到的数据绘制房价分布的地图(详见文件夹里的深圳房价地图.html[用浏览器打开])
shenzhen = ['南山区', '福田区', '宝安区', '龙华区', '罗湖区', '盐田区', '龙岗区', '光明区', '坪山区', '大鹏新区']
values = [82468, 71293, 64054, 57714, 55755, 46298, 42804, 37434, 35368, 32863]
map = Map("深圳地图", "深圳", width=1200, height=600)
map.add("2020年深圳各区房价情况", shenzhen, values, visual_range=[30000, 83000], maptype='深圳', is_visualmap=True,is_piecewise=True,pieces=[{"max": 0, "min": 0, "label": "0","color":"#FFFFFF"},{"max": 40000, "min": 1, "label": "1-40000","color":"#FFE4E1"},{"max": 50000, "min": 40001, "label": "40001-50000","color":"#FF7F50"},{"max": 60000, "min": 50001, "label": "50001-60000","color":"#F08080"},{"max": 70000, "min": 60001, "label": "60001-70000","color":"#CD5C5C"},{"max": 83000, "min": 70001, "label": "70001-83000","color":"#8B0000"}])
map.render(path="深圳房价地图.html")                                                              


图中颜色越深代表房价越高,可以看出南山区和福田区的房价属于深圳房价之最。通过查询网上的资料,得知南山区和福田区的人均GDP也是深圳最高的地区,证明这两个地区几乎可以算是深圳的市中心,生活环境好,交通便利。

总结

通过上述分析,对于深圳二手房房源市场的基本情况和购房策略总结为如下几点:

1.从区域来看,南山区、福田区、宝安区的二手房均价位列前三甲,推测原因是福田区是市中心且有关口,而南山区靠近海岸,宝安区是旧城区;此外,各区房源总价均超过250W,单价均超过35000 元/平方。

2.从数量来看,罗湖区是房源最多的地段,推测原因是罗湖区有关口,部分人需要过境工作。对于想选择好地段且价格适中的人,推荐选择龙岗区,该区有大约400套房源,且房源价格也相对较低,总价平均值为350W,单价平均值为40000元/平方。

3.从市场整体来看,绝大部分房源总价在1500W以下,中位数475W,平均值630W,范围从25W到8000W; 房源单价集中在45K-80K元/平方,中位数57818元/平方,平均值63360元/平方,范围从14302元/平方到207289 元/平方。对于普通大众,可以考虑25-475万元的房源(在这里推荐坪山区或大鹏新区)可能在地段的选择上可以不怎么考虑,但是房屋朝向和户型可供选择的种类还是挺多的。

4.从特点来看,3室2厅户型的房源数量最多,其次是2室1厅;朝南房数量最多,其次是朝东南和朝北房;而楼层对总价的影响不大,无论是几楼,单价和总价均差不多。

参考文献

[1] 刘鹏,张燕,李法平.《数据清洗》.
[2] 数据分析项目实战.https://blog.csdn.net/qq_42241832/article/details/104871186
[3] 二手房爬虫.https://www.kesci.com/mw/project/5f098536192ac2002c87c5aa/content
[4] 深圳二手房市场数据分析.https://zhuanlan.zhihu.com/p/111862088

深圳二手房房源市场研究(下)相关推荐

  1. 深圳二手房房源市场研究(上)

    PartⅠ:数据获取和数据清洗 写在前面 研究背景 数据获取 数据清洗 写在前面 很早就有写博客的想法,一直对自己不自信所以没敢尝试,每次看CSDN博客都很羡慕和崇拜,希望自己在未来的某一天也能给其他 ...

  2. Python爬取20778套深圳二手房并数据分析

    白岩松曾说:"高房价正在毁掉无数年轻人的爱情,毁灭了年轻人的想象力."尤其是北上广深这类一线城市,对于一般的工薪阶层,买房更是难上加难.前不久,DT财经写了一篇文章<我只有3 ...

  3. python爬取分析深圳二手房房价

    刚入门学习Python爬虫,因为后边将会去深圳发展,所以练习了一个用python爬取深圳房价进行可视分析的项目,希望有所帮助. 好!进入正题! 我选择爬取的是链家网的深圳二手房网页,截图如下: 查看链 ...

  4. 用7000字长文带你分析深圳二手房市场现况!

    大家好,我是小一 今天的文章是一篇7000+字的数据分析实战,阅读全文大概需要10分钟,建议收藏! 今天的数据集来自于之前的爬虫项目:爬取城市二手房数据,今天的文章亦是对深圳存量二手房的一个分析实战. ...

  5. scrapy爬虫实战:安居客深圳二手房

    温馨提示:想要本次爬虫源代码的同学 请关注公众号:python小咖 回复 ' 安居客爬虫 ' 获取源码 --------------------------------- 接下来进入正题 本次爬虫实现 ...

  6. 以58同城为例详解如何用爬虫采集二手房房源数据及中介联系方式

    2019独角兽企业重金招聘Python工程师标准>>> 2008年9月4日,英国<自然>杂志刊登了一个名为"Big Data"的专辑,首次提出大数据概 ...

  7. 数据挖掘基础之数据清洗:用python把“深圳二手房参考价”PDF保存为EXCEL

    坑DIE的住建局再一次不限富豪限刚需,公布了深圳市住宅小区二手住房成交参考价格,买房更难,首付更难凑... 数据挖掘基础之数据清理:用python把深圳二手房参考价PDF保存为EXCEL,以便其他分析 ...

  8. 19年深圳二手房交易分析

    分析2019年上半年的深圳二手房交易数据,数据集来自网络共享 分析目的:看看2019年上半年深圳二手房交易情况,是否依旧火热,波动情况如何 1 数据预处理 1.1 数据清洗 去除无用字段,更改数据类型 ...

  9. 【独立版】智慧城市同城V4_2.2.7全开源全插件VUE版,修复房产信息组件商户发布二手房房源信息未和商户关联的问题

    源码介绍 [独立版]智慧城市同城V4 查看更多关于 智慧城市同城V4 的文章 _2.2.7全开源全插件VUE版,修复房产信息组件商户发布二手房房源信息未和商户关联的问题! 智慧城市同城是一套专注于多城 ...

最新文章

  1. linux mint有没有服务器版,Linux Mint 20“Ulyana”正式版发布
  2. qt 中转化图片格式与大小的方法
  3. Android之ListView原理学习与优化总结
  4. 使用cl_htmlb_manager获得用户输入
  5. LeetCode 2191. 将杂乱无章的数字排序(自定义排序)
  6. 11个Javascript树形菜单
  7. Django3Vue3前后端分离项目
  8. difference between match and exec
  9. POJ 2502 Subway dij
  10. Windows小功能合集
  11. centos 常用的网络登录端口测试工具
  12. Qt Model/View 学习(6) - Delegate教程之——渲染
  13. APARNET阿帕网
  14. (阿里/百度/腾讯)云服务器建站全过程(Ubuntu Server 16.04.1 LTS 64位)
  15. mysql主从同步的三种模式
  16. 认真学习设计模式之委派模式(Delegate Pattern)
  17. C++时间工具类——纳秒,微秒,毫秒,秒,日期
  18. Marvolo Gaunt's Ring ---CodeForces - 855B(思维题)
  19. 利用触发器设计计数器
  20. R语言实战笔记 多项式回归

热门文章

  1. GOF设计模式之单例模式
  2. Vue获取图片的三合一直方图
  3. LilyPond教程(5)——钢琴独奏片段 III
  4. 强大的web电子表格控件dhtmlxSpreadsheet免费下载地址
  5. UVA1149 装箱 Bin Packing 题解
  6. 表弟准备买房,让我帮他分析分析哪个小区最合适,我直接用python下载了本地所有房源信息做成了可视化图
  7. Lagrange插值多项式算法
  8. 有一只兔子,从出生后第3个月起每个月都生一只兔子,小兔子长到第三个月后每个月又生一只兔子,假如兔 子都不死,问每个月的兔子总数为多少?
  9. Coursera视频无法播放
  10. 用C语言进行公英单位转换方法