(点击上方数据取经团,可快速关注)

作者:数据取经团-王大伟

前言

都说上海的房价高的吓死人,用上海话说就是:“vang 尬高得哈撒特宁”,二手房都买不起,那这房价到底有多高呢?我们酷爱来数据分析一波。。。

环境

Python3.X

编辑器:Jupyter notebook

导入链家网爬取的二手房数据

import numpy as npimport pandas as pd

df = pd.read_excel('house_lianjia.xlsx')df

......

数据初窥

查看数据信息(包括每个字段数据类型),数据条数,文件大小等

df.info()

查看数据前五行:

df.head()

这几百万的二手房看着有点吓人啊!

查看数据后五行:

df.tail()

我们可以看到‘梯户比例’一栏好像都是暂无数据

我们可以专门将这一栏数据拿出来查看:

df['梯户比例']

显示的都是暂无数据

为了确定是否所有都是暂无数据,我们可以使用如下办法:

df[df['梯户比例'] == '暂无数据']#把暂无数据的数据提取出来

......

取出了2871行,说明所有行的这栏都是暂无数据

删除无效的数据

那么,这一栏对我们数据分析没有意义,可以删去:

del df['梯户比例']#移除一栏

获得数据描述性统计

df.describe()

我们可以看一下数据的简单统计信息,从图中可以看出每个栏位数据的个数,不重复数据个数,出现最多的数据及其出现的次数

注意到最后一栏,进门朝向数据只有13个,这说明了数据缺失很严重,不考虑缺失值补齐,直接删除该栏数据:

del df['进门朝向'] #只有13个数据

发现缺失值

如果想看每个单元的缺失值,可以使用:

df.isnull()#哪些包含了缺失值

False表示没有缺失

当然,这样看起来非常难受,而且不直观

查看各字段是否有缺失值:

df.isnull().any()#是否有缺失值

这样,我们就能看到除了'房屋朝向'字段有缺失值,其他字段都没有缺失值。

我们想看看‘房屋朝向’字段有多少缺失值:

df.isnull().sum()#每个里有多少个缺失值

显示有13个缺失值

如果你对这个个数不敏感,我们可以看看缺失值的比例:

df.isnull().sum() / df.count()#缺失值比例

‘房屋朝向’的缺失值只有0.45%左右

数据探索

我们想看看数据分布是怎样的

例如看一下二手房所在区的情况:

df['所在区'].value_counts()

浦东的二手房在售的最多,可能是因为浦东新区地大

看一下二手房房屋朝向的情况:

df['房屋朝向'].value_counts()

南和南北朝向的有很多,阳光充足

看一下房屋户型的情况:

df['房屋户型'].value_counts()

可以看出在售的二手房多为2室1厅1卫

看一下房屋类型的情况:

df['房屋类型'].value_counts()

说明公寓类型最多

筛选房屋信息

如果我们想看一下我们感兴趣的房屋,例如我想找3室1厅1卫的房屋,并且只看部分:

df[df['房屋户型'] == '3室1厅1卫'].head()

这些看起来都好奢侈好贵,我还是看看单身狗一室一厅的房子多少钱吧:

df[df['房屋户型'] =='1室1厅1卫'].head()

40 平米都要200 w!

当然你也可以使用and(

Tag标签:

python上海房价数据分析_Python数据分析告诉你为何上海的二手房你都买不起相关推荐

  1. 上海python还是很多的_Python数据采集和分析告诉你为何上海的二手房你都买不起!(一)...

    1.前言 本人是个学生党,在过两年就要研究生毕业了,面临着找工作,相信很多人也面临或者经历过工作,定居租房买房之类的 在此,我们来采集一下上海在售的二手房信息,有人想问,为啥不采集新房?快醒醒吧,新房 ...

  2. Python数据采集分析告诉你为何上海二手房你都买不起

    感谢关注Python爱好者社区公众号,在这里,我们会每天向您推送Python相关的文章实战干货. 来吧,一起Python. 对商业智能BI.大数据分析挖掘.机器学习,python,R等数据领域感兴趣的 ...

  3. python pd Series 添加行_Python数据分析与挖掘的常用工具

    Python语言:简要概括一下Python语言在数据分析.挖掘场景中常用特性: 列表(可以被修改),元组(不可以被修改) 字典(结构) 集合(同数学概念上的集合) 函数式编程(主要由lambda(). ...

  4. python股票数据分析_Python数据分析之股票走势

    本篇文章讲了用python爬取六家公司的股票数据,分析股票走势.波动性.涨幅等,最终得出一点点结论. 一.包的安装 Python进行数据分析时,有几个包比较重要,所以需提前把这几个包安装好. pand ...

  5. 小白学 Python 爬虫(26):为啥上海二手房你都买不起

    人生苦短,我用 Python 前文传送门: 小白学 Python 爬虫(1):开篇 小白学 Python 爬虫(2):前置准备(一)基本类库的安装 小白学 Python 爬虫(3):前置准备(二)Li ...

  6. python房价数据挖掘_Python数据分析及可视化实例之帝都房价预测

    数据集下载易一网络科技 - 付费文章​www.intumu.com 加载数据 import pandas as pd df=pd.read_csv("MYUNOI.csv") # ...

  7. python分析微博粉丝_python数据分析微博热门

    接上篇,这一篇将从技术层面讲讲是如何实现的.阅读本文您将会了解如何用python爬取微博的评论以及如何用python word_cloud库进行数据可视化. 准备工作 为什么要用m站地址?因为m站可以 ...

  8. python新浪微博数据分析_python数据分析微博热门

    接上篇,这一篇将从技术层面讲讲是如何实现的.阅读本文您将会了解如何用python爬取微博的评论以及如何用python word_cloud库进行数据可视化. 准备工作 为什么要用m站地址?因为m站可以 ...

  9. 基于python的旅游系统_Python数据分析 I 全国旅游景点分析案例,哪里好玩一目了然...

    前言 文的文字及图片来源于网络,仅供学习.交流使用,不具有任何商业用途,版权归原作者所有,如有问题请及时联系我们以作处理. 作者: 刘亦菲的老公 PS:如有需要Python学习资料的小伙伴可以加点击下 ...

  10. python酒店数据分析_Python数据分析 I 全国旅游景点分析案例,哪里好玩一目了然...

    原标题:Python数据分析 I 全国旅游景点分析案例,哪里好玩一目了然 前言 文的文字及图片来源于网络,仅供学习.交流使用,不具有任何商业用途,版权归原作者所有,如有问题请及时联系我们以作处理. 作 ...

最新文章

  1. mysql怎么执行任务_Mysql怎么定时执行任务
  2. 发布一个自己写的.Net代码生成器
  3. Anaconda安装与环境配置
  4. [渝粤题库]陕西师范大学《商业银行经营学》作业
  5. 华为豪投20亿!3年培养100万AI人才,网友不服!
  6. 游戏服务器停机维护,网络游戏是如何做到服务器不停机维护的?
  7. day20/FileDemo1.java
  8. y480 linux无线网卡驱动,联想y480无线网卡驱动
  9. 易接SDK ios9以上无法弹出充值界面的一种情况
  10. 二元一次方程编程解鸡兔同笼问题
  11. BUUCTF:FLAG
  12. ROS创建Web代理(Web proxy)给QQ使用HTTP代理
  13. 第二本书:疯狂人类进化史20190620
  14. 关于“类包含显式重写ctor”的解决方法
  15. ROS小车基于yocs_smoother_velocity做速度平滑处理
  16. linux在防火墙上打开1521端口
  17. 面向对象程序设计—C++语言描述电子书pdf下载
  18. 冲量在线创始人刘尧:以信创软硬件结合场景为突破口“占山为王”
  19. 百度ToB垂类账号权限平台的设计与实践
  20. 程序员必备免费电子书下载网站

热门文章

  1. 浅谈Struts2拦截器的原理与实现
  2. Ember.js和Vue.js对比,哪个框架更优秀?
  3. 怎么做到对mac电脑的监控呢?
  4. 河南城建学院的计算机科学与技术,河南城建学院计算机科学与工程系
  5. 使用Flvplayer.swf播放器播放 .flv 格式的视频
  6. 自定义启动 android_什么是自定义Android启动器,以及为什么可能要使用一个
  7. 金蝶显示服务器连接超时,金蝶连接云服务器超时
  8. 解答篇:金蝶K3wise截取活动窗口
  9. 拆解CRM头牌“销售易” | 如何做好客户关系管理?
  10. Java实现12306登录和查票