白岩松曾说:“高房价正在毁掉无数年轻人的爱情,毁灭了年轻人的想象力。”尤其是北上广深这类一线城市,对于一般的工薪阶层,买房更是难上加难。前不久,DT财经写了一篇文章《我只有300万预算,能在上海买到什么样的房子?》,引起了网友广泛热议。有人不禁要问,那在深圳买房又得要多少预算呢?

于是,为了深入了解深圳二手房交易市场,我用Pyhton采集了深圳在售20778套二手房数据并分析,试图从数据层面了解深圳二手房市场现状。

数据探索与可视化

深圳二手房历年走势

首先,我们看一下深圳近年来二手房房价整体走势图。由图可知,2011年深圳二手房价仅为18495元/㎡,至2019年增长至62205元/㎡,增加了2.36倍。然而深圳平均工资增加不到2倍。可见,一般的工薪阶层购房压力增加也是情理之中。

深圳二手房在售房源分布

深圳二手房源主要分布在龙岗区,共计12747万套。坪山区和大鹏新区二手房源相对较少,分别为762套和340套。

深圳在售二手房房价分布

从深圳在售的二手房均价来看,南山区均价最高,高达81241元/㎡,其次是福田区和罗湖区,二手房均价分别为72114元/㎡和53070元/㎡。光明区房价最低,为22893元/㎡。

在深圳买一套二手房到底要花多少钱?我们分析了二手房的价位,从图中可以看到总价在300-500万内的最多,占比达到30.53%。500-800万的占比29.85%。300万以下的占比17.84%。

深圳在售二手房房龄分布

这些二手房的房龄都有多久了呢?由图可知,房龄在15-20年的最多,占比23.37%,其次是房龄在10-15年,占比21.51%。5年以内的仅占比17.63%。

不同居室二手房数量及均价

深圳二手房中,3室2厅、2室1厅和3室1厅的二手房源数量最多,5室以上的房源较少。影响二手房房价的因素很多,居室越多房价不一定就更高,由图可知,1室0厅的均价也达到了75121元/㎡。

不同朝向二手房源数量

深圳在售二手房中,朝南的房源占比最大,达31.72%,朝东南和西南次之,分别为26.10%和8.94%。

深圳在售二手房房源TOP10楼盘

由图可知,龙光玖钻在售二手房数量最多,达到150个,其次是龙光玖云著,为130个房源。

楼层数、建筑面积与房价的关系

通过绘制楼层与房价、建筑面积与房价回归图可知,深圳在售二手房楼层类型分布较为分散,且楼层与房价的相关性不大,建筑面积集中分布在200㎡内,且建筑面积与房价具有较强的正相关。

数据获取

本次数据来源于贝壳找房,限于篇幅,以下仅提供核心代码:

def main():district_list = ['luohuqu', 'futianqu','nanshanqu', 'yantianqu','baoanqu', 'longgangqu','longhuaqu', 'guangmingqu','pingshanqu', 'dapengxinqu']  #地区for district in district_list:for page in range(1,101):   #页数控制url = 'https://sz.ke.com/ershoufang/{0}/pg{1}/'.format(district, page)# print(url)response = requests.request("GET", url, headers = headers)print(response.status_code)if response.status_code == 200:re = response.content.decode('utf-8')print("正在提取" + district +'第' + str(page) + "页")time.sleep(random.uniform(1, 2))print("-" * 80)# print(re)parse = etree.HTML(re)  # 解析网页num = ''.join(parse.xpath('//*[@id="beike"]/div[1]/div[4]/div[1]/div[2]/div[1]/h2/span/text()'))print(num)parse_page(parse)if int(num) == 0:breakif __name__ == '__main__':ua = UserAgent(verify_ssl=False)headers = {"User-Agent": ua.random}time.sleep(random.uniform(1, 2))main()

数据清洗

本次数据清洗主要用到正则表达式,以下为数据清洗完整代码:

import csv, re
import pandas as pdresult = []
rule1 = re.compile("(.+层)\(共(\d+)层\)")
rule2 = re.compile("(\d+)年建")
rule3 = re.compile("\d+室\d+厅")
rule4 = re.compile("([\d\.]+)平米")
rule5 = re.compile("([\d\.]+)")with open("./ershoufang_shenzhen.csv", encoding="utf-8-sig") as f:f_csv = csv.reader(f)headers = next(f_csv)print(headers)for row in f_csv:tmp = {}tmp["楼盘名称"] = row[0]split_arr = re.sub("\n? {2,}\|?", "|", row[1]).split("|")for s in split_arr:s = s.strip()match = rule1.match(s)if match:tmp["楼层类型"] = match.group(1)tmp["楼层数"] = int(match.group(2))continuematch = rule2.match(s)if match:tmp["建造时间"] = match.group(1)continuematch = rule3.match(s)if match:tmp["户型"] = match.group(0)continuematch = rule4.match(s)if match:tmp["建筑面积(平米)"] = float(match.group(1))continuetmp["朝向"] = ssplit_arr = row[2].split("/")tmp["关注人数"] = int(split_arr[0].replace("人关注", ""))tmp["发布时间"] = split_arr[1].replace("发布", "")tmp["房价(单位:万)"] = float(row[3])tmp["单价(元/平米)"] = float(rule5.search(row[4]).group(1))result.append(tmp)
df = pd.DataFrame(result)
df.to_excel("result.xlsx", index=False)

声明

1.本数据分析只做学习研究之用途,提供的结论仅供参考;

2.作者与贝壳找房无任何瓜葛,只是他家数据比较靠谱,大家也可以去其他二手房平台看看;

3.作者对地产行业了解甚微,相关描述可能存在不尽完善之处,请勿对号入座。

●10万条弹幕,发现战神终极奥义!

●12000+字超详细 SQL 语法速成!

后台回复“入群”即可加入小z干货交流群

不错????

用Python分析深圳在售二手房数据,看看买房需要多少预算相关推荐

  1. 深圳python多少钱信息_用Python分析深圳在售二手房数据,看看买房需要多少预算...

    白岩松曾说:"高房价正在毁掉无数年轻人的爱情,毁灭了年轻人的想象力."尤其是北上广深这类一线城市,对于一般的工薪阶层,买房更是难上加难.前不久,DT财经写了一篇文章<我只有3 ...

  2. 基于Python分析深圳程序员工资有多高?

    基于Python分析深圳程序员工资有多高? 概述 前言 统计结果 爬虫技术分析 爬虫代码实现 爬虫分析实现 后记 前言 多图预警.多图预警.多图预警.校招季,毕业也多,跳槽也多.我们的职业发展还是要顺 ...

  3. [译] 使用 python 分析 14 亿条数据

    原文地址:Analysing 1.4 billion rows with python 原文作者:Steve Stagg 译文出自:掘金翻译计划 本文永久链接:github.com/xitu/gold ...

  4. python二手房价格预测_分析香港2万6千套在售二手房数据,1000万的居然有那么多...

    本文的文字及图片来源于网络,仅供学习.交流使用,不具有任何商业用途,版权归原作者所有,如有问题请及时联系我们以作处理 以下文章来源于菜J学Python ,作者J哥 前言 香港的贫富差距问题一直十分尖锐 ...

  5. Python爬取中原地产香港26281套在售二手房数据并分析

    背景 香港的贫富差距问题一直十分尖锐,最突出的体现就是收入和楼价的巨大差异.早在60年代末香港房价就经历了暴涨,人们早已对不动产的金融属性了如指掌,全港的投资情绪一直都相当火热.即便香港当前失业率高企 ...

  6. Python分析香港26281套在售二手房数据

    公众号后台回复"图书",了解更多号主新书内容 作者:J哥 来源:菜J学Python 背景 香港的贫富差距问题一直十分尖锐,最突出的体现就是收入和楼价的巨大差异.早在60年代末香港房 ...

  7. Python分析香港26281套在售二手房数据!寸土寸金啊!

    背景 香港的贫富差距问题一直十分尖锐,最突出的体现就是收入和楼价的巨大差异.早在60年代末香港房价就经历了暴涨,人们早已对不动产的金融属性了如指掌,全港的投资情绪一直都相当火热.即便香港当前失业率高企 ...

  8. gridview ashx实现数据更新_Python分析了香港26281套在售二手房数据,结果发现

    作者:J哥 背景 香港的贫富差距问题一直十分尖锐,最突出的体现就是收入和楼价的巨大差异.早在60年代末香港房价就经历了暴涨,人们早已对不动产的金融属性了如指掌,全港的投资情绪一直都相当火热. 即便香港 ...

  9. 分析香港2万6千套在售二手房数据,1000万的居然有那么多

    本文的文字及图片来源于网络,仅供学习.交流使用,不具有任何商业用途,版权归原作者所有,如有问题请及时联系我们以作处理 以下文章来源于菜J学Python ,作者J哥 前言 香港的贫富差距问题一直十分尖锐 ...

最新文章

  1. java 获取泛型_Java泛型 | Jackson TypeReference获取泛型类型信息
  2. linux变量赋值用中括号,Shell脚本定义变量和重新赋值
  3. [转]ASP.NET 状态服务 及 session丢失问题解决方案总结
  4. Qt linux双屏,qt5 多屏显示
  5. java 内置注解入门
  6. 广东财经大学计算机专业学费,广东财经大学各专业一年至少需要交的学费
  7. PyTorch学习基础知识二
  8. ZZULIOJ:1000: 从今天开始入坑C语言
  9. 简单的朴素贝叶斯算法实现英文文本分类(Python实现)
  10. 现货黄金的点差费用是怎么收的
  11. LTC咨询LTC培训经验分享:华为系智谋帮许浩明老师辅导上市公司欧菲光科技进行基于LTC流程的能力提升
  12. 华为云计算工程师证好考吗?
  13. MD5暴力碰撞对王玉斌讲解PPT的总结
  14. 32位程序在64位系统上运行
  15. 华为鸿蒙os视频馀承东,布局智慧家庭:荣耀首款搭载华为鸿蒙OS智慧屏正式发布...
  16. 转载:如何与老板谈加薪
  17. xdf文档怎么转换为pdf_如何将PDF文件和图像转换为Google文档文档
  18. [附源码]计算机毕业设计JAVA超市收银系统论文
  19. 专访迅游科技袁旭:聚焦三大核心业务板块,差异化网络通信能力让赛道不断拓宽...
  20. 敏捷迭代管理 --提测管理

热门文章

  1. python——常见内置函数、可迭代对象与迭代器对象
  2. python安装途中遇到的问题和解决方法
  3. MSM实现tomcat集群的session共享
  4. 自制DbUtils.jar
  5. pspice破解完显示 license not found 的解决方法
  6. 看计算机组成原理,计算机组成原理
  7. 千方百计获取百度网盘下载链接
  8. pqc的中文全称_品质部门 一次看懂IQC / IPQC / PQC / FQC / OQC!
  9. vb.net 教程 5-16 图像处理例子 2 半透明的图片水印
  10. android 常用机型尺寸_Android设备尺寸