原标题:用python对2019年二手房价格进行数据分析

↑关注 + 置顶 ~ 有趣的不像个技术号

本文为读者投稿,作者:董汇标MINUS

最近和朋友聊到买房问题,所以对某二手房价格信息进行了爬取,爬虫见本公众号另一篇文章。

本篇文章利用爬到数据的进行数据分析。

在这篇文章中,用到pandas、seaborn、Matplotlib等工具,分析工具用到提琴图、箱型图、散点图等。

描述性分析

首先导入各种需要的库方便后续一切操作,并 读取数据表,直接描述一下看看情况

importnumpy asnp

importpandas aspd

importmatplotlib.pyplot asplt

importseaborn assns

importwarnings

# 这部分是超参数提前设置sns.set(style='darkgrid')

plt.rcParams[ 'font.family']= 'Arial Unicode MS'

plt.rcParams[ 'axes.unicode_minus']= False

warnings.filterwarnings( 'ignore')

data =pd.read_csv( '链家新房100个.csv')

data.describe

最贵和最便宜

从上面输出表格可以看到初步结论如下:

这些二手房最小面积9.6平米,最大718平米,最便宜的56万,最贵的5200万。面积大概集中在59-102平,价格大概集中在325-630万,初步信息看完了有个印象,下边进行详细分析。

首先我对这个9.6平的房子很感兴趣,提取出来看看,但是运行下边代码看到,CBD核心区,别墅,9.64平,56W,估计是从厕所拆出来卖的。。

作罢。跳过他继续分析

data.min

而最贵的呢在鼓楼大街(二环边上)联排别墅,售价5200万。emmm

data.max

价格分布&面积分布粗看

现在我想直观的看一下售价分布,从下图可以看到,售价主要集中在1000万之内

sns.distplot(data[ '钱'].dropna)

同样的思路看一下面积,可以看到这些二手房源面积主要集中在100平米左右

sns.distplot(data[ '面积'].dropna)

此处其实也可以两张图一块看,代码如下:(都有点右偏)

fig, ax =plt.subplots( 1, 2) #2个子区域

sns.distplot(data[ '钱'],ax=ax[ 0])

sns.distplot(data[ '面积'],ax=ax[ 1])

plt.show

售价精看

对售价做一个箱型图看看,很明显的1000万那条横线以上的点儿,都是合理数据外的数据。

sns.boxplot(data=data[ '钱'])

那么合理的数据分别是什么呢?可以参考以下代码

mean, std = data[ '钱'].mean , data[ '钱'].std

# 得到上下限

lower , upper =mean -3*std , mean+ 3*std

print( '均值',mean)

print( '标准差',std)

print( '下限',lower)

print( '上限',upper)

打印结果可以看到的是标准差集中在358万,合理上限是1613万。对现实的指导就是:如果有358万,买一套房子就够了,1613万以上的房买起来就是坑爹了。

均值 538.44

标准差 358.47

下限 -536.9763753150206

上限 1613.8755022458467

价格最低的20套

通过这段代码可以看一下这些房子分布在哪里。

结论见代码下截图,如果你对北京熟悉,可以看到,这些房子主要分布在5环外,部分在顺义、昌平、门头沟等地。

t=data[[ '小区', '地区', '钱']].sort_values( '钱')

display(t.iloc[: 20])

面积精看

同样的方式,可以把”钱"列换为“面积”列看一下,面积均值89平,标准差50平,合理上限240平

均值 89.8874210879787

标准差 50.36697951495447

下限 -61.21351745688473

上限 240.9883596328421

面积最小的部分信息如下

朝向和装修程度

通过对户型方向进行分组展示可以看到在北京,主要还是南北向的,东西朝向的低很多

posit=data[ '方向'].value_counts[: 10]

display(posit)

装修程度有四类:精装、简装、毛坯、其他。

建筑形式有:板楼、塔楼、板楼塔楼结合、别墅等,

这两个维度与价格有啥关系呢?

来分析分析,做三个图先:

图一:装修状态和价格关系

图二:装修状态&建筑形式与售价关系

图三:建筑形式连同装修状态与价格关系

图四:建筑形式箱型图

通过对装修状态做价格分布图可以看到,精装修的集中在400±100万左右,简装稍微便宜一丢丢,毛坯房二手很少,其他形式的很多,价格集中在300-500万左右

对装修状态进行楼房形式的拆解后做箱型图如上,得到结论是板楼、塔楼、板楼塔楼结合是最多的,不论是精装简装还是其他信息不明的装修状态的。

对建筑形式连同装修状态和价格关系可以看到,不论什么类型的建筑形式,都存在精装修、简装修、毛坯。板楼价格横跨100万-1000万之间,集中在300-600万之间,板楼塔楼结合的价格集中在350万-700万之间,塔楼集中在380-700万之间。

初步结论,如果能搞到300万以上,精装修的板楼或塔楼随便选。

但若没这么多钱,也可以有50-300万之间的选择,只是选项少一些,但并不是没有选择。

在这个初步结论基础上提问:我有xxx万,那么我能买到多少平的房子呢?

价格面积分析

先将面积分组,分组函数如下

defvalue_to_level(area):

ifarea >= 0andarea <= 40:

return'40内'

elifarea >= 41andarea <= 60:

return'41-60'

elifarea >= 61andarea <= 80:

return'61-80'

elifarea >= 81andarea <= 130:

return'81-110'

elifarea >= 81andarea <= 130:

return'111-130'

elifarea >= 131andarea <= 180:

return'131-180'

elifarea >= 181andarea <= 250:

return'181-250'

else:

return'250以上'

level= data[ '面积'].apply(value_to_level)

display(level.value_counts)

sns.countplot(x=level , order=[ '40内', '41-60', '61-80', '81-110', '111-130', '131-180', '181-250', '250以上'])

分组后作图如下:

面积主要集中在40-110平之间。

做一张散点图,表明价格、面积的分布,限定横坐标50-500万之间,纵坐标40-120平之间

sns.scatterplot(data[ '钱'], data[ '面积'])

plt.xlim( 50, 500)

plt.ylim( 40, 120)

plt.show

所以,到这里,有大概多少钱,能买多少平的房子,一目了然。

其实可以看到:180万以上就有很多选择了。

如果只是想先买一套100万左右也有满足的情况

今天的分析就到这里。

希望对您带来帮助。

End

责任编辑:

python二手房价格预测_用python对2019年二手房价格进行数据分析相关推荐

  1. python黄金走势预测_使用python爬虫获取黄金价格的核心代码

    继续练手,根据之前获取汽油价格的方式获取了金价,暂时没钱投资,看看而已 #!/usr/bin/env python # -*- coding: utf-8 -*- """ ...

  2. python历史 用量 预测_用python做时间序列预测七:时间序列复杂度量化

    本文介绍一种方法,帮助我们了解一个时间序列是否可以预测,或者说了解可预测能力有多强. Sample Entropy (样本熵) Sample Entropy是Approximate Entropy(近 ...

  3. python蜡烛图预测_【Python量化投资】系列之SVR预测第二天开盘趋势和股价的正负统计分析(附代码)...

    原标题:[Python量化投资]系列之SVR预测第二天开盘趋势和股价的正负统计分析(附代码) 本期导读 ⊙ML.SVM介绍 ⊙股价的正负统计分析 ⊙预测第二天开盘趋势 机器学习方法是计算机科学的一个分 ...

  4. python 比赛成绩预测_利用 Python 预测英雄联盟胜负,分析了 5 万多场比赛才得出的数据!值得,涨知识了!...

    Mika 来源 | 头图 |CSDN自东方IC今天教大家用Python预测英雄联盟比赛胜负. Show me data,用数据说话 今天我们聊一聊 Python预测LOL胜负 目前,英雄联盟S10全球 ...

  5. python泰坦尼克号数据预测_使用python预测泰坦尼克号生还

    简介 Titanic是Kaggle竞赛的一道入门题,参赛者需要根据旅客的阶级.性别.年龄.船舱种类等信息预测其是否能在海难中生还,详细信息可以参看https://www.kaggle.com/,本文的 ...

  6. python 比赛成绩预测_使用Python进行体育竞技分析(预测球队成绩)

    今天我们用python进行体育竞技分析,预测球队成绩 一. 体育竞技分析的IPO模式 : 输入I(input):两个球员的能力值,模拟比赛的次数(其中,运动员的能力值,可以通过发球方赢得本回合的概率来 ...

  7. python模型疫情预测_用Python制作实时疫情图

    本文技术点: requests, echarts, pyecharts 最近一周每天早上起来第一件事,就是打开新闻软件看疫情相关的新闻.了解下自己和亲友所在城市的确诊人数,但纯数字还是缺乏一个直观的概 ...

  8. python二手车价格预测_天池_二手车交易价格预测数据分析

    字典 FieldDescription SaleID 交易ID,唯一编码 name 汽车交易名称,已脱敏 regDate 汽车注册日期,例如20160101,2016年01月01日 model 车型编 ...

  9. python 时间序列预测_使用Python进行动手时间序列预测

    python 时间序列预测 Time series analysis is the endeavor of extracting meaningful summary and statistical ...

最新文章

  1. python自学网站有哪些-小白如何入门Python? 制作一个网站为例
  2. java设计模式之UML①
  3. saltstack之keepalived的安装配置
  4. java io flush_《文件传输基础——Java IO流》,对其中flush方法的思考
  5. 对象删除某个属性_充分了解JavaScript中【对象】的概念(二)
  6. 视易收银系统怎样连接服务器,视易收银系统操作方法
  7. SAP ABAP开发入门-徐春波-专题视频课程
  8. Navicat Premium For Mac破解版
  9. 通过Jsoup 和 htmlunit 爬取全国行政区划信息查询平台的省市区区划数据
  10. 【项目实训】实验八 数据处理
  11. mysql数据库应用(六)----操作表的约束
  12. 搜索引擎 百度 高级搜索
  13. VS2017 LINK : fatal error LNK1104: cannot open file ‘atls.lib‘错误解决方案
  14. 【MySQL】MySQL 存储引擎、索引、锁、集群
  15. Operation was explicitly assigned to /device:GPU:0 but available devices are [ /job:localhost/repli
  16. win10如何删除用户计算机账户,win10电脑用户账户控制怎么取消_win10用户账户控制如何解除...
  17. 计算机数据表格展示,利用工具,一分钟完成数据可视化,快速输出美观的数据图表...
  18. AFEchidna示例8--固定效应显著性检验
  19. e.CommandArgument值的设定
  20. 五、C语言创建桌面程序:画笔和画刷

热门文章

  1. 学习笔记|领域自适应(Domain adaption)——实现模型的自适应迁移
  2. 苹果Home键恢复(无工具篇)
  3. js中break和continue的区别
  4. 【01:转自知乎:关于 openSUSE 】
  5. C或C++中的isalpha、isalnum、islower 和 isupper函数的详解
  6. 程序员的算法趣题Q09: 落单的男女
  7. html:link-icon标签引入网站小图标favicon.ico
  8. 自己无聊做的一个简单的企业进销存管理系统
  9. VMware 常见问题集锦
  10. Android四大组件Service之AIDL详解