本篇文章利用爬到数据的进行数据分析。

在这篇文章中,用到pandas、seaborn、Matplotlib等工具,分析工具用到提琴图、箱型图、散点图等。

描述性分析

首先导入各种需要的库方便后续一切操作,并读取数据表,直接描述一下看看情况

import numpyasnp

import pandas aspd

import matplotlib.pyplot asplt

import seaborn assns

import warnings

# 这部分是超参数提前设置sns.set(style='darkgrid')

plt.rcParams['font.family']='Arial Unicode MS'

plt.rcParams['axes.unicode_minus']=False

warnings.filterwarnings('ignore')

data =pd.read_csv('链家新房100个.csv')

data.describe()

最贵和最便宜

从上面输出表格可以看到初步结论如下:

这些二手房最小面积9.6平米,最大718平米,最便宜的56万,最贵的5200万。面积大概集中在59-102平,价格大概集中在325-630万,初步信息看完了有个印象,下边进行详细分析。

首先我对这个9.6平的房子很感兴趣,提取出来看看,但是运行下边代码看到,CBD核心区,别墅,9.64平,56W,估计是从厕所拆出来卖的。。

作罢。跳过他继续分析

data.min()

而最贵的呢在鼓楼大街(二环边上)联排别墅,售价5200万。emmm

data.max()

价格分布&面积分布粗看

现在我想直观的看一下售价分布,从下图可以看到,售价主要集中在1000万之内

sns.distplot(data['钱'].dropna())

同样的思路看一下面积,可以看到这些二手房源面积主要集中在100平米左右

sns.distplot(data['面积'].dropna())

此处其实也可以两张图一块看,代码如下:(都有点右偏)

fig, ax =plt.subplots(1,2) #2个子区域

sns.distplot(data['钱'],ax=ax[0])

sns.distplot(data['面积'],ax=ax[1])

plt.show()

售价精看

对售价做一个箱型图看看,很明显的1000万那条横线以上的点儿,都是合理数据外的数据。

sns.boxplot(data=data['钱'])

那么合理的数据分别是什么呢?可以参考以下代码

mean, std = data['钱'].mean() , data['钱'].std()

# 得到上下限

lower,upper=mean -3*std , mean+3*std

print('均值',mean)

print('标准差',std)

print('下限',lower)

print('上限',upper)

打印结果可以看到的是标准差集中在358万,合理上限是1613万。对现实的指导就是:如果有358万,买一套房子就够了,1613万以上的房买起来就是坑爹了。

均值 538.44

标准差 358.47

下限 -536.9763753150206

上限 1613.8755022458467

价格最低的20套

通过这段代码可以看一下这些房子分布在哪里。

结论见代码下截图,如果你对北京熟悉,可以看到,这些房子主要分布在5环外,部分在顺义、昌平、门头沟等地。

t=data[['小区','地区','钱']].sort_values('钱')

display(t.iloc[:20])

面积精看

同样的方式,可以把”钱"列换为“面积”列看一下,面积均值89平,标准差50平,合理上限240平

均值 89.8874210879787

标准差 50.36697951495447

下限 -61.21351745688473

上限 240.9883596328421

面积最小的部分信息如下

朝向和装修程度

通过对户型方向进行分组展示可以看到在北京,主要还是南北向的,东西朝向的低很多

posit=data['方向'].value_counts()[:10]

display(posit)

装修程度有四类:精装、简装、毛坯、其他。

建筑形式有:板楼、塔楼、板楼塔楼结合、别墅等,

这两个维度与价格有啥关系呢?

来分析分析,做三个图先:

图一:装修状态和价格关系

图二:装修状态&建筑形式与售价关系

图三:建筑形式连同装修状态与价格关系

图四:建筑形式箱型图

通过对装修状态做价格分布图可以看到,精装修的集中在400±100万左右,简装稍微便宜一丢丢,毛坯房二手很少,其他形式的很多,价格集中在300-500万左右

对装修状态进行楼房形式的拆解后做箱型图如上,得到结论是板楼、塔楼、板楼塔楼结合是最多的,不论是精装简装还是其他信息不明的装修状态的。

对建筑形式连同装修状态和价格关系可以看到,不论什么类型的建筑形式,都存在精装修、简装修、毛坯。板楼价格横跨100万-1000万之间,集中在300-600万之间,板楼塔楼结合的价格集中在350万-700万之间,塔楼集中在380-700万之间。

初步结论,如果能搞到300万以上,精装修的板楼或塔楼随便选。

但若没这么多钱,也可以有50-300万之间的选择,只是选项少一些,但并不是没有选择。

在这个初步结论基础上提问:我有xxx万,那么我能买到多少平的房子呢?

价格面积分析

先将面积分组,分组函数如下

def value_to_level(area):

if area >= 0 andarea <=40:

return'40内'

elif area >= 41 andarea <=60:

return'41-60'

elif area >= 61 andarea <=80:

return'61-80'

elif area >= 81 andarea <=130:

return'81-110'

elif area >= 81 andarea <=130:

return'111-130'

elif area >= 131 andarea <=180:

return'131-180'

elif area >= 181 andarea <=250:

return'181-250'

else:

return'250以上'

level= data['面积'].apply(value_to_level)

display(level.value_counts())

sns.countplot(x=level,order=['40内','41-60','61-80','81-110','111-130','131-180','181-250','250以上'])

分组后作图如下:

面积主要集中在40-110平之间。

做一张散点图,表明价格、面积的分布,限定横坐标50-500万之间,纵坐标40-120平之间

sns.scatterplot(data['钱'], data['面积'])

plt.xlim(50,500)

plt.ylim(40,120)

plt.show()

所以,到这里,有大概多少钱,能买多少平的房子,一目了然。

其实可以看到:180万以上就有很多选择了。

如果只是想先买一套100万左右也有满足的情况

今天的分析就到这里。

希望对您带来帮助。

【编辑推荐】

【责任编辑:华轩 TEL:(010)68476606】

点赞 0

python关于二手房的课程论文_用Python对2019年二手房价格进行数据分析相关推荐

  1. python关于二手房的课程论文_基于python爬取链家二手房信息代码示例

    基本环境配置 python 3.6 pycharm requests parsel time 相关模块pip安装即可 确定目标网页数据 哦豁,这个价格..................看到都觉得脑阔 ...

  2. python关于二手房的课程论文_用Python对二手房信息数据清洗及简单分析

    另外两份作业: 这几天看到社群大佬同学们发的作业,对本人有所启发,于是找来前段时间爬取的某二手房网站房源信息,进行简单的操作. 根据数据分析的基本步骤 一.提出问题 根据爬取的网站信息,额想不出有什么 ...

  3. python设计贪吃蛇游戏论文_用Python写一个贪吃蛇AI,让程序自己玩游戏

    前言 这两天在网上看到一张让人涨姿势的图片,图片中展示的是贪吃蛇游戏, 估计大部分人都玩过.但如果仅仅是贪吃蛇游戏,那么它就没有什么让人涨姿势的地方了. 问题的关键在于,图片中的贪吃蛇真的很贪吃XD, ...

  4. 基于python的股票程序化交易论文_基于Python工具的股票量化投资策略研究

    2019 年第 07 期 20 世 纪 80 年代, 一 些 投 资 者 开 始 利用 计 算 机 研究金 融 数据 , 并 初显 成 效 . 20 世 纪 末 , 投 资 者 把 计 算 机 技术 ...

  5. python如何爬取sci论文_利用python爬取并翻译GEO数据库

    GEO数据库是NCBI创建并维护的基因表达数据库,始于2000年,收录了世界各国研究机构提交的高通量基因表达数据,现芯片集数据量高达12万以上.想要从这里面挖掘(bai piao)数据,发个sci提前 ...

  6. python课程报告论文_高中Python校本课程的设计与实施

    43 MAY 2019 NO.10 高中Python校本课程的设计与实施 郑兴航 江苏省锡山高级中学 2018年1月 , 新版高中信息技术 课程标准正式颁布 , 对照2003版, 新标准在课程目 标和 ...

  7. 有关于python的论文_有关python的论文

    文章基于 Pytho n实现 了中文文 本的 自动分 类, 实现过 程比较 简单, 分类效果 良好 . [ 关键词 ]Python; 中文; 文本分类; 实现 1引言 path="stop. ...

  8. python与seo实战课程下载_黑帽seo教程:SEO快排套路与SEO快排Python应用编程技术(零基础)...

    黑帽seo教程:SEO快排套路与SEO快排Python应用编程技术(零基础) 授课内容简介 两个模块:「SEO套路」和「SEO应用编程」 「SEO套路」模块,分 "域名.内容&模板. ...

  9. python程序设计课程设计_《Python程序设计》教学大纲.doc

    PAGE 理论课程教学大纲 <Python程序设计>教学大纲 课程编号: 总 学 时:64(其中,讲课:32:实验:32) 学 分:3 实践教学:0周 修读专业:地理信息系统.应用化学 大 ...

最新文章

  1. 博客园 创始人 杜勇
  2. SAP生产订单状态详解
  3. 剑指offer: 不用加减乘除做加法
  4. sama5d3 环境检测 gpio--yk测试
  5. linux安装telnet组件,LINUX下如何安装telnet
  6. MongoDB查询文档(非常详细,不要错过哦~)
  7. C语言课程2——我们交流的工具:Coding.net
  8. golang之strings
  9. linux目录分配独立磁盘空间,Linux 分配/home的磁盘空间给根目录
  10. ps 计算机 性能设置,电脑运行PS软件太卡?6大设置提高你的PS运行速度
  11. 为什么小企业更应该关注人工智能?
  12. 带你重新认识一下应用层协议
  13. linux高性能服务器编程PDF源代码下载
  14. Android 手机震动功能实现
  15. ibm服务器前面板显示屏,ibm_x3500服务器前面板指示灯的含义.doc
  16. 目前结汇市场眼花缭乱,但那种才是适合做外贸的大佬们的一个选择呢?
  17. Graham-Scan算法计算凸包的Python代码实现
  18. 五一劳动节,向劳动者致敬!
  19. 电脑公司GHOST WIN7 装机旗舰版 2013 09
  20. 母牛的故事——无脑模拟解法

热门文章

  1. 好看的黑色响应式滚动式动态背景个人导航HTML源码
  2. 用 screen 做串口终端
  3. 计算机网络几种常见协议
  4. Linux系统存储之LVM
  5. 商务部关于网上交易的指导意见(暂行)
  6. 激光打印机维护保养完全手册
  7. JavaScript 导出 table 为 Excel 表格
  8. VS code SSH 反复提示输入密码
  9. 阿里云ocr身份证识别接口调用
  10. 深入学习Spring框架之一Spring的简要概括