分析目的:简单地介绍一个数据分析的初级项目,熟悉使用Python进行简单的数据分析的初级过程。
数据源:来及网络链接的链家全网北京二手房数据,读者可以从百度云盘中复制链接和提取码获取,进行动手实践。(最好使用python 3 完成此项目)
链接:https://pan.baidu.com/s/18R24WTkZIOFH_qvaWjixOw
提取码:61bp
一、数据初步认识:
需要导入要使用的机器学习包Sklearn和科学计算包Numpy,Pandas,可视化Matplotlib,Seaborn。
①初步查看数据


②查看缺失值,异常值和大概的数据统计进行合理分析:
describe可以包含平均数,标准差,中位数,最小值,最大值,25%分位数,75%分位数的数据;图一可以看出Elevator 存在大量的缺失数据,15440<23677;图二可以看出min(Size)=2,max(fllor)=57,这些数据不太符合一般房屋状况就应该注意了:



二、数据处理
Id 特征虽然在数据列表中,但是并没有实际意义,直接将其移除新增加一个新的特征 PerPrice用于分析数据,处理后的数据如图:
但是遇到两个问题:如何保留两位小数、如何填充缺失值(如果直接去掉将缺失很多有用数据,必然不可取)


解决保留两位小数:
解决办法二:根据现实可以估计大概楼层大于六楼有电梯,否则没有电梯进行缺失值得填充(利用apply函数进行操作):

问题解决后数据处理如图:
三、数据可视化分析(排序可自定义)
1.Region分析
①分区分析 :北京分区二手房单价对比

②分区分析 :北京分区二手房数量对

③分区分析 :北京分区二手房总价


注:区域特征可视化采用 seaborn 完成,颜色使用调色板 palette 参数,颜色渐变,越浅说明越少。
结果显示:
二手房均价:西城区的房价最贵均价大约11万/平,因为西城在二环以里,因为是热门学区房的聚集地。其次是东城大约10万/平,房价最便宜的就是平谷和密云2万多/平。
二手房房数量:从数量统计上来看,目前二手房市场上比较火热的区域。海淀区和朝阳区二手房数量最多,差不多都接近3000套,然后是丰台区。
二手房总价:通过箱型图看到,各大区域房屋总价中位数都都在1000万以下,且房屋总价离散值较高,西城最高达到了6000万,说明房屋价格特征不是理想的正太分布。

2.Size 特征分析



通过 regplot 绘制了 Size 和 Price 之间的散点图,发表明Size 特征基本与Price呈现线性关系,符合面积越大,价格越高的常识。但是有两组明显的异常点:面积不到10平米,但是价格超出10000万; 一个点面积超过了1000平米,价格很低。对于这种特殊的点位就需要特别关注分析:

display(lj1.loc[lj1[‘Size’]<10].head(100))
通过分析可知,这组数据是别墅,出现异常的原因是由于别墅结构比较特殊,也因别墅类型二手房不在我们的考虑范围之内,超过1000平米的面积很可能是商用房,这里选择将这些特殊的别墅和商用房移除。处理结果如图:
3.Layout特征分析
结果显示各种厅室组合搭配,包括9室3厅,4室0厅等少有的的结构。2室1厅占绝大部分,其次是3室1厅,2室2厅,3室2厅。


4.Renovation 分析
lj1[‘Renovation’].value_counts()
发现Renovation装修特征中有南北,它属于朝向的类型,所以需要清除或替换掉。
lj1= lj1[(lj1[‘Layout’]!=‘叠拼别墅’)&(lj1[‘Size’]<1000)&(lj1[‘Renovation’]!=‘南北’)]


结果显示:精装修的二手房数量最多,简装其次。对于价格来说,毛坯类型却是最高,其次是精装修。


5.Elevator 分析


结果显示:有电梯的二手房数量居多一些,适合北京庞大的人群需要。相应的,有电梯二手房房价较高,电梯前期装修费和后期维护费包含内。

6.Year 分析


结果显示:通过Renovation和Elevator的分类条件,用 FaceGrid 分析 Year 特征,整个二手房房价趋势是随着时间增长而增长的;2000年以后建造的二手房房价相较于2000年以前有很明显的价格上涨;1980年之前几乎不存在有电梯二手房数据;1980年之前无电梯二手房中,简装二手房占绝大多数,精装反比较少。

7.Floor 分析

结果显示:6层二手房数量最多,我们需要知道楼层的相对意义。楼层与部分文化也有很重要联系,可能受欢迎,房价也贵,比如一般也不会有4层或18层。正常情况下中间楼层是比较受欢迎的,价格也高,而底层和顶层受欢迎度较低,价格也相对较低。所以楼层是一个比较复杂的特征,对房价影响因素比较多需要综合考虑,拿今天的案例来讲,从七个方面分析得到每个部分的结果,得到一定的参考价值。

北京二手房价预测(数据分析)相关推荐

  1. python建筑案例_Python数据分析实战-链家北京二手房价分析

    前言 最近在自学Python,通过学习大家的分享案例,看到使用Python进行较多的主要4个方面:爬虫,数据处理,数据可视化以及机器学习建模.对我来说目标就是: 熟练使用numpy pandas 进行 ...

  2. 数据分析项目——深圳二手房价分析及价格预测

    目录 一.需求说明 1.1基本任务 1.2 任务目的 1.3测试数据 二.概要设计说明 三.详细设计 3.1 数据检测模块 3.2 因变量分析模块 3.3 自变量分析模块 3.4 可视化模块 3.5  ...

  3. 基于北京二手房价数据的探索性数据分析和房价评估——项目设计和数据的获取

    数据分析项目--北京二手房价数据分析 第一步:项目设计和获取数据(获取实验的数据集!!) 第二步:数据读取和数据预处理 第三步:数据的可视化分析 第四步:构建房价评估模型(决策树.随机森林等) 整个项 ...

  4. 利用机器学习进行房价预测

    爬虫能做什么 爬虫除了能够获取互联网的数据以外还能够帮我们完成很多繁琐的手动操作,这些操作不仅仅包括获取数据,还能够添加数据,比如: 投票 管理多个平台的多个账户(如各个电商平台的账号) 微信聊天机器 ...

  5. 【项目实战】北京二手房房价分析与预测

    项目简介 本项目根据个人需求进行北京二手房信息的数据分析,通过数据分析观察住房特征规律,利用机器学习模型进行简单的预测. 数据源 通过爬虫爬取第三方房屋中间商网站(链家和安居客)获取数据源,仅供学习使 ...

  6. Python数据分析-房价预测及模型分析

    摘 要 Python数据分析-房价的影响因素图解https://blog.csdn.net/weixin_42341655/article/details/120299008?spm=1001.201 ...

  7. 【数据分析师-数据分析项目案例三】多因素房价预测分析案例

    多因素房价预测分析案例 1 数据来源 2 数据加载和基本的ETL 2.1 模块导入和数据加载 2.2 数据清洗 3 数据可视化 3.1 地理可视化 3.2 关系矩阵和热力图 3.3 添加衍生字段 3. ...

  8. Python数据分析实战:上海二手房价分析

    1 数据搜集 使用 urllib 库中的request 模块爬取赶集网发布的上海二手房信息,包括包括户型.面积.单价等,再使用BeautifulSoup 库解析爬取的HTML数据,最终将数据保存到CS ...

  9. 数据分析之房价预测(机器学习,sklearn)

    比赛给的数据集给与的是关于某个地区的房屋数据,要求运用机器学习的知识给出合理的房价预测 首先导入所需要的包 import pandas as pd import numpy as np import ...

  10. 广州二手房价分析与预测

    一.概述   1.1问题介绍与分析 随着社会经济的迅猛发展,房地产开发建设的速度越来越快,二手房市场迅猛发展,对二手房房产价格评估的需求也随之增大.因此,对二手房房价预测与分析是必要的.详细文档与代码 ...

最新文章

  1. 55道常见的计算机面试题
  2. mysql分组和where条件查询_【MySQL】:分组查询where和having
  3. 51Node 01组成的N的倍数
  4. #6278. 数列分块 2 分块 + 块内二分
  5. C语言:fopen与open的总结
  6. Unity Shader 之 透明效果
  7. 【按位dp】文盲的学习方法
  8. 静态路由(实验讲解+配置)
  9. 基于ADS的c语言程序设计实验,实验一:基于ADS软件传输线理论仿真设计与分析.docx...
  10. 宁波送餐机器人_重磅合作丨擎朗送餐机器人进驻外婆家,让等餐顾客不再流失...
  11. python可以自学编程吗-Python入门学习难吗,新手如何学习
  12. [查阅]MSIL Instruction Set
  13. IntelliJ IDEA 13怎么创建JAVA SE项目
  14. ChromeDriver版本(最新v2.45)与Chrome版本(最新v72)支持关系以及下载地址
  15. 浅谈大数据时代之影响力
  16. android device ID获取
  17. Xcode6以后如何用企业证书发布应用
  18. 前端开发人员的精彩文字
  19. C#与宇电温控表自定义协议通信实例
  20. ESXi 6.7.0含RTL8168驱动安装包(亲测可用)

热门文章

  1. 闲鱼平台API,item_app获得闲鱼原生数据
  2. [易飞]一张领料单单身仓库quot;飞了quot;引起的思考
  3. unity物体自身轴旋转_unity3d如何实现物体自动旋转-unity3d物体自动旋转的设置教程 - 河东软件园...
  4. STM32F091不识别仿真器的案例
  5. 开源 android 文件管理器
  6. 重庆云阳2021云中高考成绩查询,2021年云阳县高考状元成绩分数,云阳县历年高考状元名单...
  7. 图灵超算工作站UltraLAB GT400M上市
  8. 1102: 韩信点兵
  9. e站host地址_电脑网络:ip地址详解,小学生都看的懂
  10. SpringCloud版本选择