我用python分析买房数据
首先说明,这是一篇技术文章。
明年打算买房,媳妇这段时间总去看房子,这种状态持续了两个月,最近终于消停了。现在整个市场不明朗,我们也不确定换到哪里。不如先整理点数据,至少能监控一些区域价格,有变化能及时知道。
正好可以边学Python边练手,不得不说Python确实是门不错的语言。上手速度和PHP有一拼,而且在做数据分析上有很大的优势。
一、影响因素
以前写过租房二三事,这篇文章在掘金的互动量比我所有的技术文章都高,可以看出住这个事情是大家的共同需求。想来买房、换房也是人生中比较重要的事情。其实不太期望捡便宜,但求正常价成交。下面列了一些影响放假的因素,大家买房的时候可以思考一下。
1.1学区
这个是房价最大的影响因素。以北京为例,比较好的是西城、海淀、东城。现在租住在西城边上,路两边房价差5w。
国家一直在努力想实现教育均衡,无论是东城的全区还是西城的多区划片,都是为了这一目标。我支持教育均衡,因为教育历来是重要上升通道,一旦失守,会引起很多问题。所以真要买学区房,要做好房价下降的心理准备(短时间就北京而言比较困难)。
学区这种非标品,很难说到底值多少钱,只能以市场价来判断。
现在几乎没有完全安全的方案,能够保证上好的小学同时也能上好的高中。北京现在的政策很多,幼升小有学区派位入学、片区内登录入学、多校划片入学等,小升初有直升、派位等。
大家尽量了解一下政策,同一个行政区里的不同小区情况并不相同。调研一下对应的小学和初中情况,别用能买相对好一点学区的钱买了一个一般的学区。
1.2楼层
同一个小区里,楼层对价格影响比较大。一般而言,顶楼和一层都要便宜一些,有的会便宜很多。
其中顶楼会更便宜一些,因为一楼比顶楼多一些购买人群-老人。
顶楼的问题:如果没有电梯,爬楼梯太累,而且还有漏雨、夏热冬凉等问题
底层的问题:隐私问题、下水问题、采光问题
这两者好处就是便宜,大家别用买好楼层的价格买了这些楼层
1.3房龄
北京越靠里越是老房子,俗称老破小。八几年的还可以,时间再往前的话,价格也要便宜一些,毕竟十年之后再换房,房龄太老下家都可能没法贷款,到时候需要折价很多。
要么就直接下手个老的,但是价格也要便宜,这样便宜买便宜卖,至少不会亏。
1.4朝向、户型
东西向没有南北好、尽量明厨明卫、南北通透、尽量选两边不选中间。
大家别选太奇葩的。
1.5名额占用
现在学区名额,每个房子6年能用一次,有的人孩子刚上学就想卖,这时候合适购买的人比较少,也可以聊价格
1.6安静、临街、交通
这种肯定影响价格,但我觉得更重要的是影响买不买,如果有安静的需求,再便宜也不能买。
二、数据分析
在中介APP上找不到销售记录,而且显示出的很多数据并不能提供什么分析能力。如无法分析哪些小区卖的好、不同楼层价格有什么区别、小区成交量等数量,那就只能自己做了。
我打算分如下几步来处理:
获取数据
入库
分析
服务器部署
2.1获取数据
现在搞数据还是比较麻烦的,通过一些方法总算取到这些数据,我比较关注的是房屋所在地区、小区名、户型、朝向、所在楼层、总楼层、装修情况、是否有电梯、面积、价格、房屋年份、挂牌时间。
数据如下图所示:
2.2数据存储
创建MySQL数据库,将这些数据存储。房源不太多,所以足够使用了。个人也不建议搞太多数据。
CREATE TABLE `house_info` (`id` bigint(20) unsigned NOT NULL COMMENT 'ID',`title` varchar(500) NOT NULL DEFAULT '' COMMENT '标题', `area` varchar(500) NOT NULL DEFAULT '' COMMENT '市区',`district` varchar(500) NOT NULL DEFAULT '' COMMENT '行政位置',`community_name` varchar(500) NOT NULL DEFAULT '' COMMENT '小区',`room` varchar(500) NOT NULL DEFAULT '' COMMENT '户型',`room_type` varchar(500) NOT NULL DEFAULT '' COMMENT '朝向',`level` varchar(500) NOT NULL DEFAULT '' COMMENT '所在楼层',`height` varchar(500) NOT NULL DEFAULT '' COMMENT '楼层',`sub_info` varchar(500) NOT NULL DEFAULT '' COMMENT '装修情况',`elevator` varchar(500) NOT NULL DEFAULT '' COMMENT '电梯',`house_area` varchar(500) NOT NULL DEFAULT '' COMMENT '面积',`price` varchar(500) NOT NULL DEFAULT '' COMMENT '价格',`date` varchar(500) NOT NULL DEFAULT '' COMMENT '年份',`sellTime` varchar(500) NOT NULL DEFAULT '' COMMENT '挂牌',`create_time` timestamp NOT NULL DEFAULT CURRENT_TIMESTAMP COMMENT '创建时间',`update_time` timestamp NOT NULL DEFAULT CURRENT_TIMESTAMP ON UPDATE CURRENT_TIMESTAMP COMMENT '更新时间',PRIMARY KEY (`id`),KEY `idx_update_time` (`update_time`)
) ENGINE=InnoDB DEFAULT CHARSET=utf8 COMMENT='house info';
2.3分析数据
有数据后,我们可以分析哪些内容呢?通过每天获取数据,我们可以默认没有更新的为房子已经出售(有可能只是下架了),这样能够判断有哪些房子已经成交,虽然有些不太准确,但应该够用了。
为了方便分析细节,设置可通过所在的行政单位、小区、楼层查看。
def main():district = '' #行政单位community_name = '' #小区名level = '' #高低楼层df = readFromDB()unitprice(district,community_name,level,df)numofhouse(df)numofsell(district,community_name,level,df)unitpriceofselled(district,community_name,level,df)
单位价格
通过每天上架的房屋单价判断是否有变化,下图可以看出整体比较平稳。如果为了将趋势显示的更明显,可以按照周或者月进行聚合。
在售数量
这是每一个行政区里每一个小区的在售房屋数量,能看出不同的区差别还是蛮大的。有的地方几乎没有房源,有些地方则选择更多一些,意味着价格、机会也会更多一些。
每天出售数量
这张图显示每天出售了多少房屋,我们能知晓这个地区的成交情况,用于判断是否急于购买,是否可以等待合适房源。
售出单价
这张图显示房屋消失时的单价,定位到单个小区时,可以看出该小区售房单价情况。
当然这个数据不太准确,因为理论上真实成交价会比这个低,但是完全可以能用来监控价格了。
2.4服务器
最后一步是将代码部署到服务器上,使用cron定时执行,这样就不需要每次自己执行了。
后续如果有需要,可添加监控功能,方案大家可参考SSH登录服务器发送提醒。
三、总结
做这个小工具还是挺有意思的,其实IT本来就是为了解决实际问题。另外也学习了一下Python,不错。
等事情忙完之后,把代码分享到github上。
最后
大家如果喜欢我的文章,可以关注我的公众号(程序员麻辣烫)
我的个人博客为:https://shidawuhen.github.io/
往期文章回顾:
设计模式
招聘
思考
存储
算法系列
读书笔记
小工具
架构
网络
Go语言
我用python分析买房数据相关推荐
- python大数据分析实例-如何用Python分析大数据(以Twitter数据挖掘为例)
原标题:如何用Python分析大数据(以Twitter数据挖掘为例) 来源:艾翻译(http://www.itran.cc/) 原文标题:Twitter Data Mining: A Guide to ...
- LIGO 用 Python 分析引力波数据
LIGO 用 Python 分析引力波数据 美国科学家11日宣布,他们去年9月首次探测到引力波.这一发现印证了物理学大师爱因斯坦100年前的预言.宣布这一发现的,是激光干涉引力波天文台(LIGO)的负 ...
- 如何去使用Python分析股票数据?学到就是赚到
对于炒股的同学来说,必须会看懂数据才能避免入坑.今天小千就来教大家如何去使用Python分析股票数据,学到就是赚到.(小千提醒,股市有风险,请谨慎投资) 这次的美股例子就选择了美国显卡制造商英伟达,其 ...
- python sci数据_scanpy学习笔记:用Python分析单细胞数据
Scanpy 是一个基于 Python 分析单细胞数据的软件包,内容包括预处理,可视化,聚类,拟时序分析和差异表达分析等.本文翻译自 scanpy 的官方教程 Preprocessing and cl ...
- 大数据如何使用Python分析微信数据
截至2020年第二季度,微信拥有超过27亿活跃用户.这意味着,如果你正在阅读大数据如何使用Python分析微信数据,那么你很可能是微信用户.但是,你到底有多少微信用户?你实际发布了多少?我们可以使用P ...
- 零基础小白如何使用Python分析调查数据
进行调查和民意调查是收集数据和深入了解诸如客户为何离开我们网站等问题的最佳方法之一.还是为什么选民会吸引这位候选人?但是分析调查数据可能是一个真正的挑战! 在本教程中,我们将逐步介绍如何使用Pytho ...
- python分析股票数据 彤_Python数据分析:股票数据
最近股市比较火,我7月初上车了,现在已经下了.中间虽然吃了点肉,但下车的时候都亏进去了,最后连点汤都没喝着. 这篇文章我们就用它python 对股票数据做个简单的分析.数据集是从1999年到2016年 ...
- python 分析大数据
Python是一种高级编程语言,可用于分析大数据.常用的 Python 库如 Pandas 和 NumPy 可用于数据清洗.数据分析和数据可视化.此外,还有许多其他库,如 Scikit-learn.T ...
- python分析鸢尾花数据_python数据挖掘学习笔记】十六.逻辑回归LogisticRegression分析鸢尾花数据...
但是很多时候数据是非线性的,所以这篇文章主要讲述逻辑回归及Sklearn机器学习包中的LogisticRegression算法 #2018-03-28 16:57:56 March Wednesday ...
最新文章
- 国内第一本律师撰写的海关法律专业书籍-《企业如何应对海关行政处罚》-第五章...
- mobaxterm设置中文界面显示_Adobe系列2020如何更改界面显示语言
- 使用MATLAB如何生成jar包
- html标签库jar包,struts2的s标签库jar包
- Building and running Node.js for Android
- 基于socket的线上聊天框
- 说一说为什么gethostbyname用完后不用释放内存
- 通过ObjectProvider进行依赖查找
- 在SAP CRM webclient ui右上角显示系统时间
- java----IO和NIO的区别
- 【Java】Fibonacci数列编程实现
- MySQL存储过程(四)——存储过程循环流控语句
- iOS中Lua脚本应用笔记一:脚本概念相关
- USB转RS232串口线-交叉线or直连线
- vue-网页Logo标题及矢量图标
- 阿尔法贝塔阀原理_阿尔法(α)和贝塔(β)的通俗解释
- 什么是Java垃圾回收器
- 2021年中国冰雪旅游行业市场现状分析,“三足鼎立、两带崛起、全面开花”新格局形成「图」
- Kubernetes(K8S)入门到运维 ( 六) Helm与功能组件及证书年限
- 如何更新服务器系统教程,服务器操作系统如何更新