python上海房价数据分析_Python数据分析告诉你为何上海的二手房你都买不起
(点击上方数据取经团,可快速关注)
作者:数据取经团-王大伟
前言
都说上海的房价高的吓死人,用上海话说就是:“vang 尬高得哈撒特宁”,二手房都买不起,那这房价到底有多高呢?我们酷爱来数据分析一波。。。
环境
Python3.X
编辑器:Jupyter notebook
导入链家网爬取的二手房数据
import numpy as npimport pandas as pd
df = pd.read_excel('house_lianjia.xlsx')df
......
数据初窥
查看数据信息(包括每个字段数据类型),数据条数,文件大小等
df.info()
查看数据前五行:
df.head()
这几百万的二手房看着有点吓人啊!
查看数据后五行:
df.tail()
我们可以看到‘梯户比例’一栏好像都是暂无数据
我们可以专门将这一栏数据拿出来查看:
df['梯户比例']
显示的都是暂无数据
为了确定是否所有都是暂无数据,我们可以使用如下办法:
df[df['梯户比例'] == '暂无数据']#把暂无数据的数据提取出来
......
取出了2871行,说明所有行的这栏都是暂无数据
删除无效的数据
那么,这一栏对我们数据分析没有意义,可以删去:
del df['梯户比例']#移除一栏
获得数据描述性统计
df.describe()
我们可以看一下数据的简单统计信息,从图中可以看出每个栏位数据的个数,不重复数据个数,出现最多的数据及其出现的次数
注意到最后一栏,进门朝向数据只有13个,这说明了数据缺失很严重,不考虑缺失值补齐,直接删除该栏数据:
del df['进门朝向'] #只有13个数据
发现缺失值
如果想看每个单元的缺失值,可以使用:
df.isnull()#哪些包含了缺失值
False表示没有缺失
当然,这样看起来非常难受,而且不直观
查看各字段是否有缺失值:
df.isnull().any()#是否有缺失值
这样,我们就能看到除了'房屋朝向'字段有缺失值,其他字段都没有缺失值。
我们想看看‘房屋朝向’字段有多少缺失值:
df.isnull().sum()#每个里有多少个缺失值
显示有13个缺失值
如果你对这个个数不敏感,我们可以看看缺失值的比例:
df.isnull().sum() / df.count()#缺失值比例
‘房屋朝向’的缺失值只有0.45%左右
数据探索
我们想看看数据分布是怎样的
例如看一下二手房所在区的情况:
df['所在区'].value_counts()
浦东的二手房在售的最多,可能是因为浦东新区地大
看一下二手房房屋朝向的情况:
df['房屋朝向'].value_counts()
南和南北朝向的有很多,阳光充足
看一下房屋户型的情况:
df['房屋户型'].value_counts()
可以看出在售的二手房多为2室1厅1卫
看一下房屋类型的情况:
df['房屋类型'].value_counts()
说明公寓类型最多
筛选房屋信息
如果我们想看一下我们感兴趣的房屋,例如我想找3室1厅1卫的房屋,并且只看部分:
df[df['房屋户型'] == '3室1厅1卫'].head()
这些看起来都好奢侈好贵,我还是看看单身狗一室一厅的房子多少钱吧:
df[df['房屋户型'] =='1室1厅1卫'].head()
40 平米都要200 w!
当然你也可以使用and(
Tag标签:
python上海房价数据分析_Python数据分析告诉你为何上海的二手房你都买不起相关推荐
- 上海python还是很多的_Python数据采集和分析告诉你为何上海的二手房你都买不起!(一)...
1.前言 本人是个学生党,在过两年就要研究生毕业了,面临着找工作,相信很多人也面临或者经历过工作,定居租房买房之类的 在此,我们来采集一下上海在售的二手房信息,有人想问,为啥不采集新房?快醒醒吧,新房 ...
- Python数据采集分析告诉你为何上海二手房你都买不起
感谢关注Python爱好者社区公众号,在这里,我们会每天向您推送Python相关的文章实战干货. 来吧,一起Python. 对商业智能BI.大数据分析挖掘.机器学习,python,R等数据领域感兴趣的 ...
- python pd Series 添加行_Python数据分析与挖掘的常用工具
Python语言:简要概括一下Python语言在数据分析.挖掘场景中常用特性: 列表(可以被修改),元组(不可以被修改) 字典(结构) 集合(同数学概念上的集合) 函数式编程(主要由lambda(). ...
- python股票数据分析_Python数据分析之股票走势
本篇文章讲了用python爬取六家公司的股票数据,分析股票走势.波动性.涨幅等,最终得出一点点结论. 一.包的安装 Python进行数据分析时,有几个包比较重要,所以需提前把这几个包安装好. pand ...
- 小白学 Python 爬虫(26):为啥上海二手房你都买不起
人生苦短,我用 Python 前文传送门: 小白学 Python 爬虫(1):开篇 小白学 Python 爬虫(2):前置准备(一)基本类库的安装 小白学 Python 爬虫(3):前置准备(二)Li ...
- python房价数据挖掘_Python数据分析及可视化实例之帝都房价预测
数据集下载易一网络科技 - 付费文章www.intumu.com 加载数据 import pandas as pd df=pd.read_csv("MYUNOI.csv") # ...
- python分析微博粉丝_python数据分析微博热门
接上篇,这一篇将从技术层面讲讲是如何实现的.阅读本文您将会了解如何用python爬取微博的评论以及如何用python word_cloud库进行数据可视化. 准备工作 为什么要用m站地址?因为m站可以 ...
- python新浪微博数据分析_python数据分析微博热门
接上篇,这一篇将从技术层面讲讲是如何实现的.阅读本文您将会了解如何用python爬取微博的评论以及如何用python word_cloud库进行数据可视化. 准备工作 为什么要用m站地址?因为m站可以 ...
- 基于python的旅游系统_Python数据分析 I 全国旅游景点分析案例,哪里好玩一目了然...
前言 文的文字及图片来源于网络,仅供学习.交流使用,不具有任何商业用途,版权归原作者所有,如有问题请及时联系我们以作处理. 作者: 刘亦菲的老公 PS:如有需要Python学习资料的小伙伴可以加点击下 ...
- python酒店数据分析_Python数据分析 I 全国旅游景点分析案例,哪里好玩一目了然...
原标题:Python数据分析 I 全国旅游景点分析案例,哪里好玩一目了然 前言 文的文字及图片来源于网络,仅供学习.交流使用,不具有任何商业用途,版权归原作者所有,如有问题请及时联系我们以作处理. 作 ...
最新文章
- mysql怎么执行任务_Mysql怎么定时执行任务
- 发布一个自己写的.Net代码生成器
- Anaconda安装与环境配置
- [渝粤题库]陕西师范大学《商业银行经营学》作业
- 华为豪投20亿!3年培养100万AI人才,网友不服!
- 游戏服务器停机维护,网络游戏是如何做到服务器不停机维护的?
- day20/FileDemo1.java
- y480 linux无线网卡驱动,联想y480无线网卡驱动
- 易接SDK ios9以上无法弹出充值界面的一种情况
- 二元一次方程编程解鸡兔同笼问题
- BUUCTF:FLAG
- ROS创建Web代理(Web proxy)给QQ使用HTTP代理
- 第二本书:疯狂人类进化史20190620
- 关于“类包含显式重写ctor”的解决方法
- ROS小车基于yocs_smoother_velocity做速度平滑处理
- linux在防火墙上打开1521端口
- 面向对象程序设计—C++语言描述电子书pdf下载
- 冲量在线创始人刘尧:以信创软硬件结合场景为突破口“占山为王”
- 百度ToB垂类账号权限平台的设计与实践
- 程序员必备免费电子书下载网站
热门文章
- 浅谈Struts2拦截器的原理与实现
- Ember.js和Vue.js对比,哪个框架更优秀?
- 怎么做到对mac电脑的监控呢?
- 河南城建学院的计算机科学与技术,河南城建学院计算机科学与工程系
- 使用Flvplayer.swf播放器播放 .flv 格式的视频
- 自定义启动 android_什么是自定义Android启动器,以及为什么可能要使用一个
- 金蝶显示服务器连接超时,金蝶连接云服务器超时
- 解答篇:金蝶K3wise截取活动窗口
- 拆解CRM头牌“销售易” | 如何做好客户关系管理?
- Java实现12306登录和查票