本次分析的数据集来源为链家2017年房源信息。
在数据分析的过程中,我们也可以先去理解数据,再提出问题,在探索数据的过程当中,我们往往会发现很多有趣的事情~
1.提出问题
北京二手房的房价跟哪些因素有关呢?
2.读取数据,理解数据
导入数据分析相关工具包
%matplotlib 为魔法函数,之后的数据可视化过程中,有了它我们就不需要每次都使用plt.show()来显示图表了。

用pandas中的read_csv()方法读取格式为CSV的数据集,并用Head()方法默认查看前5行。

数据类型分析:

1.数值型:Floor,Price,Size,Year

2.字符串类型:Direction,District,Layout,Region,Renovation,Elevato

查看数据类型以及是否存在缺失值

Elevator 有缺失值

我们可以根据楼层高度判断是否有电梯,然后进行缺失值的填补。

查看数据是否有异常值

从这里我们发现,房屋楼层最高层竟然有57层,价格中最大值有6000万,而房屋大小中最小的只有2平,这是不符合住房常理的,这就是我们当前发现的异常值,要找到它们并且移除它们。
3.数据处理
创建副本,添加房屋均价新特征,并以分析方便的方式重新摆放各列

4.特征分析
分析各区与房价之间的关系:
我们首先按区分类(groupby()方法),各区的住房数量(count()方法),然后再计算按区分类各区的房屋每平均价(mean()方法)。

数据可视化



观察数据:
1.海淀区、朝阳区、丰台区、昌平区的房源较多,平谷、怀柔、密云房源较少,说明接近市中心的区房源较多,离市中心较远的区房源较少,也符合常理;
2.西城区、东城区、海淀、朝阳的房价较高,评估、怀柔、密云房价较低,这与房屋越接近市中心,房价越高。

分析房屋大小与房价之间的关系:
我们通过密度图和散点图来分析房屋(Size)特征

发现问题:
问题1:长尾分布,有很多面积超出正常范围的数据;
问题2:大部分数据符合实际情况,价格随着面积的增大而增大,有异常数据,面积小,价格高。

找出异常点:
我们查找房屋面积小于10或者大于1000的数据


别墅跟商用房都不是我们要考虑的,所要移除这部分数据。

将异常点移除之后,我们观察到,房屋的价格随着房屋面积的增长而增长,呈正相关。

分析房屋布局的数量

这里我们观察发现,房屋布局为2室1厅的房屋数量最多。

分析房屋价格与装修类型的关系:

数据可视化

观察数据:

1.精装修和简装修房屋数量最多;

2.毛坯房的均价却最高。

分析有无电梯与房价之间的关系:
查看数据是否有错位的现象

数据可视化


观察数据:

1.有电梯的房屋数量较多;

2.有电梯的房屋均价较高。

分析房屋总体因素随时间的变化

这是一个多维图,点的位置分布表示随着时间的增长房屋价格的变化;
点的数量表示随着时间的增长房屋数量的变化;
点的颜色深浅表示房屋的装修等级;
点的大小表示是否有电梯。

观察结果:

(1)整个二手房价格趋势随着时间增长,尤其在2000年之后大幅增长;

(2)1980年之前电梯房非常少,毛坯房较多;

(3)1980-2000年之间,简装房屋较多,出现电梯房;

(4)2000年之后电梯房较多,精装房屋较多

分析房屋价格与楼层之间的关系:

数据可视化

观察数据:

可以看到,6层二手房数量最多,但是单独的楼层特征没有什么意义,因为每个小区住房的总楼层数都不一样,我们需要知道楼层的相对意义。

另外,楼层与文化也有很重要联系,比如中国文化七上八下,七层可能受欢迎,房价也贵,而一般也不会有4层或18层。当然,正常情况下中间楼层是比较受欢迎的,价格也高,底层和顶层受欢迎度较低,价格也相对较低。

所以楼层是一个非常复杂的特征,对房价影响也比较大。

Python北京二手房房价数据集分析相关推荐

  1. 【项目实战】北京二手房房价分析与预测

    项目简介 本项目根据个人需求进行北京二手房信息的数据分析,通过数据分析观察住房特征规律,利用机器学习模型进行简单的预测. 数据源 通过爬虫爬取第三方房屋中间商网站(链家和安居客)获取数据源,仅供学习使 ...

  2. 北京二手房房价分析(建模篇)

    数据科学俱乐部 中国数据科学家社区 本篇将继续上一篇数据分析用Python分析北京二手房房价之后进行数据挖掘建模预测,这两部分构成了一个简单的完整项目.结合两篇文章通过数据分析和挖掘的方法可以达到二手 ...

  3. 数据挖掘实战项目——北京二手房房价分析

    本次实战项目的主要目的是分析北京二手房房价,项目源自博文:入门Python数据分析最好的实战项目(一)和入门Python数据分析最好的实战项目(二).本篇文章仅记录博主在学习过程中的思路. 数据分析 ...

  4. Python爬虫 —3000+条北京二手房数据可视化分析

    关注公众号:[小张Python],为你准备了 50+ 本Python 精品电子书籍 与 50G + 优质视频学习资料,后台回复关键字:1024 即可获取:如果对博文内容有什么疑问,公众号后台添加作者[ ...

  5. 商业大数据线下回归实验:北京二手房房价实验步骤(上)

    商业大数据线性回归实验:北京二手房房价实验步骤(上) 实验要求 (1)使用北京二手房房价.csv文件,创建一个工作流. (2) 用北京二手房房价.csv文件中的数据生成单位面积房价直方图.内部因素的单 ...

  6. Python 爬取北京二手房数据,分析北漂族买得起房吗?(附完整源码)

    来源:CSDN 本文约3500字,建议阅读9分钟. 本文根据Python爬取了赶集网北京二手房数据,R对爬取的二手房房价做线性回归分析,适合刚刚接触Python&R的同学们学习参考. 房价高是 ...

  7. Python 北京二手房成交数据分析过程

    此为之前偶尔在社区看到的优秀作业"链家2011-2016北京二手房成交数据分析",在此为了工作简历上的项目巩固复习练习一次. 环境准备 import numpy as np imp ...

  8. RDKit | 基于RDKit和Python的阿斯利康ADME数据集分析

    数据说明 阿斯利康已将与ADME有关的数据集存放到ChEMBL. http://dx.doi.org/10.6019/CHEMBL3301361 https://www.ebi.ac.uk/chemb ...

  9. python数字识别kaggle论文_基于Python语言Kaggle的数据集分析

    界 基于 Python 语言 Kaggle 的数 据集 分析 段 聪 聪 柴 世 一 * 渊 河 南 大 学 计 算 机 与 信 息 工 程 学 院 袁 河 南 开 封 475004 冤 揖 摘 要 ...

  10. Python采集3000条北京二手房数据,看我都分析出了啥?

    最近呢,对链家平台上的北京二手房数据做了个可视化分析,对目前北京的二手房交易情况有了个大致了解,最终得到一个很实在的结论:奋斗一辈子也买不到一个厕所这句话不是骗人的,是真的:关于具体分析内容请看下文 ...

最新文章

  1. 21天mysql_把整个Mysql拆分成21天,轻松掌握,搞定(下)
  2. android 单选框 icon,Android中的普通对话框、单选对话框、多选对话框、带Icon的对话框、以及自定义Adapter和自定义View对话框详解...
  3. 改变服务器控件的显示属性,2.6.1 设置Style特性和其他属性
  4. 《PHP精粹:编写高效PHP代码》——第1章面向对象编程
  5. phpcms下的邮箱设置
  6. 利用python爬虫(part12)--随机获取UserAgent
  7. 7. SVM松弛变量
  8. 并发事务正确性的准则 可串行化_从0到1理解数据库事务(上):并发问题与隔离级别...
  9. 从 0 到 1,看我玩弄千万日志于股掌
  10. [转载] Bitmap的秘密
  11. SLB+Tomcat时request.RemoteAddr无法获取正确的客户端IP的问题解决方案
  12. [自己动手玩黑科技] 1、小黑科技——如何将普通的家电改造成可以与手机App联动的“智能硬件”...
  13. 光流(一)--综述概览
  14. Schedule定时器cron表达式
  15. 等保三级全称是什么?是什么意思?
  16. php xheditor 上传图片,WordPress投稿集成xheditor编辑器(支持图片上传)
  17. 全球链界科技发展大会_科技界的女性-过去,现在和未来
  18. 怎样截屏计算机桌面,如何快速截图? 电脑桌面截图快捷键是哪个【详细介绍】...
  19. 什么是领导能力?如何提高领导能力?
  20. 中考考试的指令广播_考试时间指令(铃声).doc

热门文章

  1. 讲解如何禁止iOS屏幕自动旋转
  2. 固态硬盘与机械硬盘的区别
  3. 【名师大讲坛】叶俊受《金刚经》的启发创造“名非论”-火锅智烩节目组根据视频文字整理
  4. Android项目“error: Apostrophe not preceded by \ (”报错解决方法
  5. linux windows 共享 smbd 部署
  6. ubuntu释放显卡内存
  7. 数据库服务器如何备份详细教程!
  8. element-ui组件的下载与安装
  9. TNS-12555报错的解决方案
  10. 点线面的特点_描述点线面状事物分布特征