Python北京二手房房价数据集分析
本次分析的数据集来源为链家2017年房源信息。
在数据分析的过程中,我们也可以先去理解数据,再提出问题,在探索数据的过程当中,我们往往会发现很多有趣的事情~
1.提出问题
北京二手房的房价跟哪些因素有关呢?
2.读取数据,理解数据
导入数据分析相关工具包
%matplotlib 为魔法函数,之后的数据可视化过程中,有了它我们就不需要每次都使用plt.show()来显示图表了。
用pandas中的read_csv()方法读取格式为CSV的数据集,并用Head()方法默认查看前5行。
数据类型分析:
1.数值型:Floor,Price,Size,Year
2.字符串类型:Direction,District,Layout,Region,Renovation,Elevato
查看数据类型以及是否存在缺失值
Elevator 有缺失值
我们可以根据楼层高度判断是否有电梯,然后进行缺失值的填补。
查看数据是否有异常值
从这里我们发现,房屋楼层最高层竟然有57层,价格中最大值有6000万,而房屋大小中最小的只有2平,这是不符合住房常理的,这就是我们当前发现的异常值,要找到它们并且移除它们。
3.数据处理
创建副本,添加房屋均价新特征,并以分析方便的方式重新摆放各列
4.特征分析
分析各区与房价之间的关系:
我们首先按区分类(groupby()方法),各区的住房数量(count()方法),然后再计算按区分类各区的房屋每平均价(mean()方法)。
数据可视化
观察数据:
1.海淀区、朝阳区、丰台区、昌平区的房源较多,平谷、怀柔、密云房源较少,说明接近市中心的区房源较多,离市中心较远的区房源较少,也符合常理;
2.西城区、东城区、海淀、朝阳的房价较高,评估、怀柔、密云房价较低,这与房屋越接近市中心,房价越高。
分析房屋大小与房价之间的关系:
我们通过密度图和散点图来分析房屋(Size)特征
发现问题:
问题1:长尾分布,有很多面积超出正常范围的数据;
问题2:大部分数据符合实际情况,价格随着面积的增大而增大,有异常数据,面积小,价格高。
找出异常点:
我们查找房屋面积小于10或者大于1000的数据
别墅跟商用房都不是我们要考虑的,所要移除这部分数据。
将异常点移除之后,我们观察到,房屋的价格随着房屋面积的增长而增长,呈正相关。
分析房屋布局的数量
这里我们观察发现,房屋布局为2室1厅的房屋数量最多。
分析房屋价格与装修类型的关系:
数据可视化
观察数据:
1.精装修和简装修房屋数量最多;
2.毛坯房的均价却最高。
分析有无电梯与房价之间的关系:
查看数据是否有错位的现象
数据可视化
观察数据:
1.有电梯的房屋数量较多;
2.有电梯的房屋均价较高。
分析房屋总体因素随时间的变化
这是一个多维图,点的位置分布表示随着时间的增长房屋价格的变化;
点的数量表示随着时间的增长房屋数量的变化;
点的颜色深浅表示房屋的装修等级;
点的大小表示是否有电梯。
观察结果:
(1)整个二手房价格趋势随着时间增长,尤其在2000年之后大幅增长;
(2)1980年之前电梯房非常少,毛坯房较多;
(3)1980-2000年之间,简装房屋较多,出现电梯房;
(4)2000年之后电梯房较多,精装房屋较多
分析房屋价格与楼层之间的关系:
数据可视化
观察数据:
可以看到,6层二手房数量最多,但是单独的楼层特征没有什么意义,因为每个小区住房的总楼层数都不一样,我们需要知道楼层的相对意义。
另外,楼层与文化也有很重要联系,比如中国文化七上八下,七层可能受欢迎,房价也贵,而一般也不会有4层或18层。当然,正常情况下中间楼层是比较受欢迎的,价格也高,底层和顶层受欢迎度较低,价格也相对较低。
所以楼层是一个非常复杂的特征,对房价影响也比较大。
Python北京二手房房价数据集分析相关推荐
- 【项目实战】北京二手房房价分析与预测
项目简介 本项目根据个人需求进行北京二手房信息的数据分析,通过数据分析观察住房特征规律,利用机器学习模型进行简单的预测. 数据源 通过爬虫爬取第三方房屋中间商网站(链家和安居客)获取数据源,仅供学习使 ...
- 北京二手房房价分析(建模篇)
数据科学俱乐部 中国数据科学家社区 本篇将继续上一篇数据分析用Python分析北京二手房房价之后进行数据挖掘建模预测,这两部分构成了一个简单的完整项目.结合两篇文章通过数据分析和挖掘的方法可以达到二手 ...
- 数据挖掘实战项目——北京二手房房价分析
本次实战项目的主要目的是分析北京二手房房价,项目源自博文:入门Python数据分析最好的实战项目(一)和入门Python数据分析最好的实战项目(二).本篇文章仅记录博主在学习过程中的思路. 数据分析 ...
- Python爬虫 —3000+条北京二手房数据可视化分析
关注公众号:[小张Python],为你准备了 50+ 本Python 精品电子书籍 与 50G + 优质视频学习资料,后台回复关键字:1024 即可获取:如果对博文内容有什么疑问,公众号后台添加作者[ ...
- 商业大数据线下回归实验:北京二手房房价实验步骤(上)
商业大数据线性回归实验:北京二手房房价实验步骤(上) 实验要求 (1)使用北京二手房房价.csv文件,创建一个工作流. (2) 用北京二手房房价.csv文件中的数据生成单位面积房价直方图.内部因素的单 ...
- Python 爬取北京二手房数据,分析北漂族买得起房吗?(附完整源码)
来源:CSDN 本文约3500字,建议阅读9分钟. 本文根据Python爬取了赶集网北京二手房数据,R对爬取的二手房房价做线性回归分析,适合刚刚接触Python&R的同学们学习参考. 房价高是 ...
- Python 北京二手房成交数据分析过程
此为之前偶尔在社区看到的优秀作业"链家2011-2016北京二手房成交数据分析",在此为了工作简历上的项目巩固复习练习一次. 环境准备 import numpy as np imp ...
- RDKit | 基于RDKit和Python的阿斯利康ADME数据集分析
数据说明 阿斯利康已将与ADME有关的数据集存放到ChEMBL. http://dx.doi.org/10.6019/CHEMBL3301361 https://www.ebi.ac.uk/chemb ...
- python数字识别kaggle论文_基于Python语言Kaggle的数据集分析
界 基于 Python 语言 Kaggle 的数 据集 分析 段 聪 聪 柴 世 一 * 渊 河 南 大 学 计 算 机 与 信 息 工 程 学 院 袁 河 南 开 封 475004 冤 揖 摘 要 ...
- Python采集3000条北京二手房数据,看我都分析出了啥?
最近呢,对链家平台上的北京二手房数据做了个可视化分析,对目前北京的二手房交易情况有了个大致了解,最终得到一个很实在的结论:奋斗一辈子也买不到一个厕所这句话不是骗人的,是真的:关于具体分析内容请看下文 ...
最新文章
- 21天mysql_把整个Mysql拆分成21天,轻松掌握,搞定(下)
- android 单选框 icon,Android中的普通对话框、单选对话框、多选对话框、带Icon的对话框、以及自定义Adapter和自定义View对话框详解...
- 改变服务器控件的显示属性,2.6.1 设置Style特性和其他属性
- 《PHP精粹:编写高效PHP代码》——第1章面向对象编程
- phpcms下的邮箱设置
- 利用python爬虫(part12)--随机获取UserAgent
- 7. SVM松弛变量
- 并发事务正确性的准则 可串行化_从0到1理解数据库事务(上):并发问题与隔离级别...
- 从 0 到 1,看我玩弄千万日志于股掌
- [转载] Bitmap的秘密
- SLB+Tomcat时request.RemoteAddr无法获取正确的客户端IP的问题解决方案
- [自己动手玩黑科技] 1、小黑科技——如何将普通的家电改造成可以与手机App联动的“智能硬件”...
- 光流(一)--综述概览
- Schedule定时器cron表达式
- 等保三级全称是什么?是什么意思?
- php xheditor 上传图片,WordPress投稿集成xheditor编辑器(支持图片上传)
- 全球链界科技发展大会_科技界的女性-过去,现在和未来
- 怎样截屏计算机桌面,如何快速截图? 电脑桌面截图快捷键是哪个【详细介绍】...
- 什么是领导能力?如何提高领导能力?
- 中考考试的指令广播_考试时间指令(铃声).doc
热门文章
- 讲解如何禁止iOS屏幕自动旋转
- 固态硬盘与机械硬盘的区别
- 【名师大讲坛】叶俊受《金刚经》的启发创造“名非论”-火锅智烩节目组根据视频文字整理
- Android项目“error: Apostrophe not preceded by \ (”报错解决方法
- linux windows 共享 smbd 部署
- ubuntu释放显卡内存
- 数据库服务器如何备份详细教程!
- element-ui组件的下载与安装
- TNS-12555报错的解决方案
- 点线面的特点_描述点线面状事物分布特征