上一篇分享了爬取链家二手房的数据,接下来就应该是分析这份数据。

小插曲:懒洋洋的夏天到了连人也变得懒洋洋的了(借口!)。拖拖拉拉地等到了链家网页改版等到了二手房放盘数目又多了 10,000 + 套(楼市小复苏?),总之又不得不重新爬了一份 51,000 + 的数据。

Inspect Data


因为爬取数据的时候就有洁癖,所以简单的完成数据清洗的工作后就可以来八卦广州的二手房房价了。

总归广州还是一个仁慈的一线城市,手握 250w 就可以选个还不错的房子了。

print(subset(house, total_price == max(total_price))) #誉峰 2800w
print(subset(house, total_price == min(total_price))) #荔城中区 50w
print(subset(house, unit_price == max(unit_price))) #天銮 121433
print(subset(house, unit_price == min(unit_price))) #富力金港城南区 7471
print(mean(house$total_price)) # 268.3635w
print(mean(house$unit_price)) # 34914.52
print(median(house$total_price)) # 228w
print(median(house$unit_price)) # 33216

关注度最高的房子在海珠区客村附近,而关注度最低的房子则在花东镇, 太平镇,凤凰城等区域(就是有事没事别到那些地方买房子)。

print(subset(house, follow == max(follow))) # 金影花园
print(subset(house, follow == min(follow) & release_time >= 60)) #花东镇 太平镇 凤凰城 等

Data Visualization


广州房屋价格是近似于长尾分布的,总价和均价的中位数均低于均值。毕竟买不起千万豪宅的人儿终有被平均的命运~

而对房子单价影响较高的因素包括:1)交通(近地铁);(2)房子朝向;(3)房子户型;(4)房子装修;(5)房子地段。

好奇心指导下开始逐一研究各变量与房屋价格之间的关系,看看数据教我们怎么买房子。

户型

目前放盘的二手房的户型集中在2房1厅,2房2厅,3房1厅,3房2厅和4房2厅这5种户型中,而3房1厅和4房2厅这两种户型的价格明显高于其他主流户型。

面积

房子的单价和房子的面积的关系比不明显。

交通

众所周知,近地铁的房子要比离地铁远的房子贵,而在广州近地铁的房子均价(38000+)要比不近地铁(26000+)的高约 12000。

建筑年代

目前广州在售的二手房有超过一半是建于2000年代,与房地产发展的黄金十年是相符的。

而在2000年代建起的房子中大部分是在建于2000年。个人推测原因有两个:1)广州市政府在2000年左右组织建设了大量经济适用房;2)2000年代的房子即将届满20年,而楼龄超过20年的房子对于申请贷款是有难度的。

广州的二手房的价格和房子的建筑年代其实关系并不明显的正相关,相反还会有建筑年代越新单价越便宜的趋势。因为新建的房子大多位于位置较为偏远的区域,而老房子可能却因为位于市中心而更受追捧。

关注度

较为受关注(>100)的房子均价集中在20000-40000之间,总价集中在100w-300w之间, 而且总价在100w-200w之间的房子(上车盘)关注度更为高。

税费

尽管房产证满2年相较于房产证满5年而言税费会高很多,高税费也并不影响房屋的出售价格。从图可以看到房屋满2年和满5年的房价相差并不大。

朝向

广州的二手房多为东北,东南,北向,南向和西南这几种朝向,其中东北和东南的两个朝向最受欢迎(仅从价格观察)。东南一直是最受广大人民群众欢迎的朝向,但是东北价格贵于南向和西南可能是因为紫气东来……(瞎掰的!)

装修

广州的二手房多为简装和精装的(就是买回去要是装修风格不合心意得花一大笔钱砸掉重装),但其实二者之间总价和单价的均价差并不会太大(毕竟买回去都要砸~),其中简装的房子的总价均价约为220w,单价均价约为33000,而精装的房子总价均价约为250w,单价约为35000。但是低总价的简装房子明显要比低总价的精装房子要多。推测简装房子里有很多传说中的“老破小”。

区域

我们一直都知道房子所在的区域或者片区对于房子的价格有着至关重要的影响。

目前广州放盘量较高的区域包括大石,香雪,昌岗等地段。放盘数量越高的区域价格越是能反映房屋的真实价值。一开始为以为市中心区域的放盘数量会高于外围地区的放盘量。因为外围区域的房子多为楼龄较新的房子,业主的置换兴趣可能没有那么高。但实际上像香雪,大沙地等外围区域的放盘量是很高,猜测原因有二:一是外围区域的小区体量较大,二是外围区域生活配套教育服务等确实还不完善,业主的希望改善的愿望还是很强烈的。

广州最金贵的区域毋容置疑就是让人又爱又恨的珠城了,而其余黄金区域多集中在天河和越秀两区。

如果将区域细分至小区,那么广州各小区的放盘量和放盘总价的情况如下:

其他

卖家为了能尽高尽快的出售房子一定会自己的房子度身定做吸人眼球的广告词,而这些广告词则能很好反映对于一套房子而言具备什么因素才能称得上是一个“笋盘”。采光好,户型方正,有小区,有花园都是一套吸引人的房子所具备的特点。

To Be Continued


初步分析广州二手房各个影响房价因素之间的关系后,还会继续挖掘数据中隐藏的隐藏信息。敬请期待哦~

转载于:https://www.cnblogs.com/yukiwu/p/11271515.html

链家广州二手房的数据与分析——数据分析1相关推荐

  1. 2020链家杭州二手房数据分析(截止到2020年09月07日)

    2020链家杭州二手房数据分析(截止到2020年09月07日) 1 项目背景 通过python爬去链家杭州二手房的数据,网址为:https://hz.lianjia.com/ershoufang/.可 ...

  2. 用Python爬取2020链家杭州二手房数据

    起源于数据挖掘课程设计的需求,参考着17年这位老兄写的代码:https://blog.csdn.net/sinat_36772813/article/details/73497956?utm_medi ...

  3. 数据分析:pandas分析链家网二手房信息

    分析链家网南京市二手房信息 链家网二手房数据的采集方法参见之前的博客:数据采集(四):用XPath爬取链家网房价数据 总共有3000条二手房信息记录. import pandas as pd impo ...

  4. python爬取链家新房_Python爬虫实战:爬取链家网二手房数据

    前言 本文的文字及图片来源于网络,仅供学习.交流使用,不具有任何商业用途,如有问题请及时联系我们以作处理. 买房装修,是每个人都要经历的重要事情之一.相对于新房交易市场来说,如今的二手房交易市场一点也 ...

  5. python二手房使用教程_python实战:基于链家网二手房数据解析任务

    实战:基于链家网二手房数据解析任务 页面:https://bd.ke.com/ershoufang/ 获取如下信息: 标题 位置 房屋信息 关注人数 / 发布时间 房屋总价 房屋单价 备注信息 1.导 ...

  6. python爬取链家新房数据_Python爬虫实战:爬取链家网二手房数据

    前言 本文的文字及图片来源于网络,仅供学习.交流使用,不具有任何商业用途,如有问题请及时联系我们以作处理. 买房装修,是每个人都要经历的重要事情之一.相对于新房交易市场来说,如今的二手房交易市场一点也 ...

  7. 爬取链家网二手房数据并保存到mongodb中

    提示:文章写完后,目录可以自动生成,如何生成可参考右边的帮助文档 爬取链家网二手房数据并保存到mongodb中 文章目录 前言 一.爬虫的介绍 二.协程的介绍 三.css选择器 四.基于asyncio ...

  8. python爬虫requests源码链家_python的爬虫项目(链家买二手房)

    不知不觉,已经工作6年有余,恍恍惚惚,有机会满足房子需求. 在收集房子信息过程中,做些记录. 贝壳的功能很强大,但很难满足小区.距离.教育.面积等多个方面的匹配,使用起来成本仍然较高. 针对以上情况, ...

  9. 成都双流区链家网租房python数据可视化

    0X00 数据来源:python爬虫获取链家二手房源信息 上一次我使用python爬取了链家上成都市双流区的一些租房信息,今天我们就来对爬取到的数据进行一些简单的数据可视化处理,学习学习python一 ...

  10. 使用Java及jsoup爬取链家北京二手房房价数据

    由于是初次使用Java写爬虫,所以代码有些繁琐,请大家见谅,并能给与指正 首先分析链家北京二手房页面,使用360浏览器的审查元素功能,查看源代码,获取查询标签 如图一级查询所示,此图标签所获取的是链家 ...

最新文章

  1. 怎么卸载apowerrec_Win10预装应用太多如何彻底清除?一个命令删除
  2. windows环境下的zookeeper安装
  3. RegisterUserFunc为测试对象添加新方法或重写已有方法
  4. 【Linux】一步一步学Linux——tty命令(240)
  5. 微服务模式下,实现前后端多资源服务调用
  6. lamp mysql大小限制_LAMP 调优之:MySQL 服务器调优
  7. 新一代Web安全治理体系让“我的地盘我做主”不再只是梦
  8. Android开发中如何加载API源码帮助开发
  9. js实现登录表单验证
  10. android chrome 无法下载,Android Chrome浏览器将支持下载暂停和取消
  11. 英语语法最终珍藏版笔记-8虚拟语气
  12. 监控计算机和家用计算机的区别,建筑设备监控系统复习题
  13. 中级java面试问题大全及答案大全
  14. Linux之Iptables防火墙管理与配置~
  15. ubuntu18.04+cuda9.0+lenovo y430p(GTX850M)亲测可用
  16. xx-xx-xx-xx转换成x年x月x日星期x
  17. 销售人员的月工资数量(月工资=基本工资+提成,提成=商品数*1.5)
  18. PS如何快速使用对象选择工具抠图?
  19. font-size: 0的作用和用途
  20. 有没有免费的抠图软件?自用的抠图软件分享

热门文章

  1. 基于RSSI及KNN算法的WiFi室内定位实现
  2. SolidWorks二次开发经验总结
  3. linux开启关闭网络指令
  4. 防火墙 firewall 及端口查看
  5. linux每周2 4 6执行定时任务,linux计划任务crontab例子
  6. Ember -Routes
  7. android实现带下划线的密码输入框
  8. 什么是Smartdrv程序
  9. 常见黑客渗透测试工具
  10. Android系统启动流程分析之启动应用