2019上半年深圳二手楼市热度如何?(链家数据爬取&分析)

文章目录

  • 2019上半年深圳二手楼市热度如何?(链家数据爬取&分析)
    • 1.多进程爬取2w+链家网深圳已成交二手房数据
    • 2.数据清洗与初探
      • 2.1、数据清洗
      • 2.2、数据初探
    • 3.分析深圳2019上半年二手楼市:
      • 3.1、2019上半年深圳二手房成交情况总览:
      • 3.2、对比2018/2019上半年楼市,其热度有什么变化?
      • 3.3、对比2018/2019上半年楼市,加价/减价成交情况有何变化?
      • 3.4、2019上半年哪类房子比较好卖?(成交数量多)
      • 3.5、其他
    • 4.总结

1.多进程爬取2w+链家网深圳已成交二手房数据

具体步骤省略(阅读时可跳过此处,具体内容及代码欢迎查阅&fork:https://www.kesci.com/home/project/5d5e4ca78499bc002c05b75e)

  1. 注意代码应记录或提示爬取出错的相关信息,以便查询。
  2. 注意异常处理,以免程序假死或失败。

2.数据清洗与初探

2.1、数据清洗

具体步骤省略(阅读时可跳过此处,具体内容及代码欢迎查阅&fork:https://www.kesci.com/home/project/5d5e4ca78499bc002c05b75e)

  1. 去除无用字段、提取字段信息、字段数值化等等后,数据集的基本信息如下:
  2. 在部分数值字段描述中发现异常:

    可以发现建成年代最大值存在异常,竟然有二手楼盘是2058年建成!
    于是先找到建成年代大于等于2020年的楼盘,如下:

    直接查询同名楼盘建成年代众数来填补错误,并检查。

2.2、数据初探

  1. 数据整体房源分布、成交单价初探:
  2. 用powermap可视化二手房源位置及区域平均单价:
    显然近香港的罗湖区、福田区、南山区成交楼盘最为密集,价格也最高。
  3. 查看整体数据中,挂牌和成交时间分布直方图:
    可以发现2015上半年及之前基本没有挂牌信息,爬取的数据主要集中在2018及2019年。
    我们会简单对比2019和2018上半年情况,并着重分析2019h1的房源情况。

3.分析深圳2019上半年二手楼市:

3.1、2019上半年深圳二手房成交情况总览:

  1. 2019上半年部分数值字段描述:
    2019上半年共成交8802套二手房,平均成交价390.658259,平均成交单价5.512047,平均成交周期126.419791,平均建筑面积70.323028。
  2. 2019h1深圳二手房成交量日历图:
    用pyechart作成交量日历图,观察到三、四月成交较多,且周日、周一比较火热。

    3.各区成交单价箱型图:
    成交单价方面南山区首屈一指,而宝安区已超过了中心区域的罗湖区。

3.2、对比2018/2019上半年楼市,其热度有什么变化?

  1. 首先提取2018年上半年(1.1~6.30)成交数据,看一下部分字段描述:
    2018年上半年,共成交4813个楼盘,而2019h1成交数是8802,两者差别较大。
    2018年上半年 浏览、建成年代 略有缺失,套内面积 缺失严重,若需建模需考虑填补或舍去。
  2. 通过powermap观察2018h1、2019h1二手房成交分布情况差异:
    由图可以发现2018上半年缺失龙岗区的成交记录,验证数据后发现确实如此(略)。
    所以在和2018h1对比时,2019h1应剔除龙岗区的成交记录。单独讨论2019h1时则使用其全部数据。
  3. 提取2019年上半年(1.1~6.30)成交数据(除龙岗区),看一下整体描述:
    2019年上半年(除龙岗区),共成交6813个楼盘。
    浏览、建成年代略有缺失,套内面积缺失严重,若需建模需考虑填补或舍去。
  4. 对比2018h1和2019h1(除龙岗区):
    图1. 楼盘成交周期分布更加平缓,19上半年卖出的房源,挂牌时间往往更久。
    图2. 成交楼盘中户型成交倾向由原来70-80平,改为80-90平,意味着成交价格更高。
    图3. 成交价、单价等价格相关均有不同程度上涨。
    另外,带看量 和 浏览数 明显增加,可能体现了热度的增长,但主要和网站用户量和数据收集情况有关,仅可参考。

    简评:
    虽然19年上半年房价高企,但大家却倾向于买更大建筑面积楼盘,可见资金仍然比较充足,土豪或加杠杆的人数仍比较多。
    另外楼盘平均成交周期增长,可能体现了买家相较过去更为谨慎。
    目前来看,2019上半年深圳楼市"似乎"还是相当火热!

3.3、对比2018/2019上半年楼市,加价/减价成交情况有何变化?

  1. 2019上半年(除龙岗区)成交二手房加减价比例:
    从图中了解到加价成交占总体成交5.02%,减价成交占87.42%
  2. 2018上半年成交二手房加减价比例:
    我们再参考一下2018h1的情况,发现18年上半年减价成交占比更少,加价成交占比更多。
  3. 2018h1/2019h1(除龙岗区)成交加减价情况:
    由图可知,2019h1(除龙岗区)加价成交幅度略增,减价成交的幅度增加明显。
    另外,2019h1(除龙岗区)的楼盘成交平均要降价15.78万。
  4. 2019h1各区成交平均降价幅度:
    其中南山区、宝安区、龙华区这三个成交量居中的区域,平均降价幅度最大。
    另外我们再观察各区域降价情况,南山区这样比较不错的地段,平均降价30万+才能成交。
    无论如何,在出价策略长期不变的情况下,可见出价者和求购者的认知存在偏差。

3.4、2019上半年哪类房子比较好卖?(成交数量多)

ps:为缩减篇幅只分析一部分较有价值的属性。

  1. 2019h1、2018h1建筑面积kde图:
    由图可知40平左右小户型和80平左右中户型比较好卖。
  2. 房屋朝向成交量、成交价、成交单价关系图:
    朝向南或北的房子好卖,但同时朝南北却卖得不是很多。
    由图或查看数据可知:虽然南北朝向平均单价不高,但可能面积较大,成交总价较高,令人生畏。
  3. 户型、装修成交情况:
    成交数前5的户型中,前三名是"2室1厅1厨1卫",“1室1厅1厨1卫”,“2室2厅1厨1卫”。看来还是主流户型(性价比高)比较好卖呀!
    精装房最受欢迎。毛坯成交量最少,查阅数据可知其平均单价倒数第二,但平均总价却最高。
  4. 区域成交量:
    罗湖区、龙岗区二手房最好卖。
  5. 楼层数分布及楼层位置成交情况:
    楼盘总层数为7层或32层左右比较好卖
    房屋在中层比较好卖,高层太吓人,底层阳光少,视野窄。
  6. 是否配电梯及梯户比例成交情况:
    这年头都是高楼大厦,没电梯简直难于上青天。其中一梯四户,一梯两户,两梯四户比较好卖。
  7. 建成年代成交量分布图:
    2000~2008左右建成的房子成交量较多

3.5、其他

  1. WordCloud-楼盘热度:
    哪些是热门楼盘?
  2. 下图是部分字段的相关系数热力图,我们会发现:
    (1)成交周期和调价存在弱相关性。
    (2)关注数和带看次数有一定相关性,但关注数和带看次数并没有和成交周期形成负相关。
    (3)浏览数和关注数没有多大关系,所以这方面数据仅供参考。
    (4)有趣的是,浏览数最高达到532127的楼盘,成交周期还是要112天,估计是业主做了推广,但仍没有很快成交。
  3. tableau仪表盘:
    https://public.tableau.com/views/2019_15670928250750/1?:embed=y&:display_count=yes&:origin=viz_share_link

4.总结

  1. 通过上面的分析,我们了解到深圳2019h1的二手楼市,同比2018h1,2019h1的房价依然稳中有进,较为火热,但平均成交周期更长,减价成交比例增加,买卖方认知差异拉大,买方更加谨慎。
  2. 所以如果想卖得更快,早点变现,可以先考察一下自己房子属性如何,如果优势不大则适当减价吧。
  3. 想起今年的一句流行言论:“2019可能是过去10年最差的一年,但也是未来10年最好的一年。”面对可能出现变局的房地产市场,我们能做的就是持续关注,做好功课,免得决策失误,拍断大腿!

欢迎查阅本篇代码完整版:https://www.kesci.com/home/project/5d5e4ca78499bc002c05b75e
博文地址:https://blog.csdn.net/richand112233/article/details/100109296

2019上半年深圳二手楼市热度如何?(链家数据爬取分析)相关推荐

  1. 【完整版】2019h1深圳二手楼市热度如何?(数据爬取、分析建模)

    2019h1深圳二手楼市热度如何?(数据爬取.分析&建模) 文章目录 2019h1深圳二手楼市热度如何?(数据爬取.分析&建模) 一.数据爬取 1.1 多进程爬取2w+深圳已成交二手房 ...

  2. 利用pandas对在链家网爬取的租房数据进行清洗

    爬虫代码可以参考这篇文章,全是干货,在此不再赘述. 爬下来的数据就可以进行数据清洗啦!首先确定需要处理的字段.因为后续准备做回归,所以我的变量设置是这样的: 清洗前的数据如下所示: 结合模型的变量.数 ...

  3. 链家java_java爬取链家网数据

    int num = 1; String path = "D:\\房源信息.txt"; BufferedWriter bf = new BufferedWriter(new File ...

  4. 爬虫实战:链家租房数据爬取,实习僧网站数据爬取

    前面已经进行了爬虫基础部分的学习,于是自己也尝试爬了一些网站数据,用的策略都是比较简单,可能有些因素没有考虑到,但是也爬取到了一定的数据,下面介绍两个爬过的案例. 爬虫实战 链家网站爬取 实习僧网站爬 ...

  5. 链家网杭州租房信息数据爬取+数据分析

    参考https://mp.weixin.qq.com/s/vvZ2yBb2eMKP800LUPoAWg 需求分析¶ 过去一个月,全国热点城市的房租如脱缰野马.一线的房租同比涨了近20%.一夜醒来,无产 ...

  6. 成都二手房长啥样 —— 基于链家数据

    下面的分析的源数据是从链家网上抓取的成都二手房数据,截至时间2019年1月16日.目的也简单,一个想买房的人关注一下所在城市的房价情况. 需要注意的问题: 只含普通住房, 不含公寓.别墅 链家网上只有 ...

  7. 爬链家数据(武汉光谷房价)

    爬链家数据 #-*- coding:utf-8-*- import urllib import urllib.request import re from bs4 import BeautifulSo ...

  8. 链家网沈阳二手房数据分析——从数据爬取到数据分析

    数据爬取主要是通过使用requests实现的,鉴于爬取数据的流程简单以及电脑的性能所限,没有使用scrapy框架,而是使用where循环手动控制页码的形式,每次爬取5页信息,并将信息写入.csv文件中 ...

  9. python爬取分析深圳二手房房价

    刚入门学习Python爬虫,因为后边将会去深圳发展,所以练习了一个用python爬取深圳房价进行可视分析的项目,希望有所帮助. 好!进入正题! 我选择爬取的是链家网的深圳二手房网页,截图如下: 查看链 ...

  10. 成都链家网租房信息分析报告

    前言 临近毕业,面临找工作找住所的问题.正好赶上正好赶上最近在学习数据分析,于是尝试对链家网上的租房信息进行分析,了解一下最近的租房行情. 提出猜想 简单分析了一下影响租房价格的因素,根据可以爬取到的 ...

最新文章

  1. Nginx工作原理及优化参数配置
  2. mysql性能优化学习笔记-存储引擎
  3. 怎样使用dhcp自动分配IP地址
  4. Linux如何实现断点续传文件功能?
  5. opencv摄像头用法
  6. oracle质数怎么算,借花献佛之使用Oracle sql求质数(笔记)
  7. MySQL之DML(操作)语句
  8. mysql 数据库中根据当前系统时间,取前后几秒、几分钟、几小时、几天
  9. 如何在C++中调用C程序?(讲的比较清楚)
  10. java实现等额本息算法
  11. 【2020.10.29 洛谷团队赛 普及组】T6 U138025 小武的方程
  12. EI会议论文,第二届云计算、大数据与数字经济国际学术会议最终截稿倒计时10天
  13. Android仿淘宝头条垂直滚动,垂直走马灯,公告
  14. 2022-06-23 JVM学习
  15. 冒泡排序的交换次数 (树状数组)
  16. 微软欲用Silverlight阻击Flash
  17. qq至尊宝抽取小窍门
  18. 关于DirectX的一些知识
  19. Qt QRegExp 正则表达式
  20. 基于ARM11+Linux的无线视频监控系统

热门文章

  1. php ipa下载 解码,ipa下载的方法
  2. 【FL攻防综述】Privacy and Robustness in Federated Learning: Attacks and Defenses
  3. 设置cpolar远程访问本地网页
  4. 服务器2003如何修复0,Windows Server 2003 SP2补丁无法安装解决方法(密钥无效)
  5. python字符串输入并倒叙_基于python3实现倒叙字符串
  6. 第2章 藏书阁签到,修为突破
  7. 基于Python绘制一个摸鱼倒计时界面
  8. 家用路由器设置虚拟服务器,家用路由器设置虚拟服务器
  9. 23种设计模式——最好理解的代理模式
  10. 【论文翻译】Faster R-CNN: Towards Real-Time Object Detection with Region Proposal Networks