房价数据分析

数据简单清洗

data.csv

数据显示

# 导入模块
import pandas as pd  # 导入数据统计模块
import matplotlib  # 导入图表模块
import matplotlib.pyplot as plt  # 导入绘图模块# 避免中文乱码
matplotlib.rcParams['font.sans-serif'] = ['SimHei']  # 设置字体为SimHei显示中文
matplotlib.rcParams['axes.unicode_minus'] = False  # 设置正常显示字符,使用rc配置文件来自定义
# 简单清洗
data = pd.read_csv('data.csv')  # 读取csv数据
del data['Unnamed: 0']  # 将索引列删除
data.dropna(axis=0, how='any', inplace=True)  # 删除data数据中的所有空值
data['单价'] = data['单价'].map(lambda d: d.replace('元/平米', ''))  # 将单价“元/平米”去掉
data['单价'] = data['单价'].astype(float)  # 将房子单价转换为浮点类型,float(data['',单价])data['总价'] = data['总价'].map(lambda d: d.replace('万', ''))  # 将总价“万”去掉
data['总价'] = data['总价'].astype(float)  # 将房子总价转换为浮点类型,float(data['',单价])data['建筑面积'] = data['建筑面积'].map(lambda p: p.replace('平米', ''))  # 将建筑面积“平米去掉”
data['建筑面积'] = data['建筑面积'].astype(float)  # 将将建筑面积转换为浮点类型

各区均价分析

# 获取各区二手房均价分析,根据需求,,进一步处理数据,如果要写相应算法,需要根据算法所需求的数据处理
def get_average_price():group = data.groupby('区域')  # 将房子区域分组average_price_group = group['单价'].mean()  # 计算每个区域的均价,average_price_group字典x = average_price_group.index  # 区域y = average_price_group.values.astype(int)  # 区域对应的均价a =['t':'123'] a.keys()return x, y  # 返回区域与对应的均价,region二关 average_price均价# 显示均价条形图
def average_price_bar(x, y, title):plt.figure()  # 图形画布plt.bar(x, y, alpha=0.8)  # 绘制条形图plt.xlabel("区域")  # 区域文字plt.ylabel("均价")  # 均价文字plt.title(title)  # 表标题文字# 为每一个图形加数值标签for x, y in enumerate(y):plt.text(x, y + 100, y, ha='center')plt.show()if __name__ == '__main__':x, y = get_average_price()title = '各区均价分析'average_price_bar(x, y, title)

运行如图

全市二手房装修程度分析

# 获取各区二手房均价分析,根据需求,,进一步处理数据,如果要写相应算法,需要根据算法所需求的数据处理
def get_decorate_sum():group = data.groupby('装修')  # 将房子区域分组# decorate_sum_group = group['装修'].count()  # 计算每个区域的均价,average_price_group字典decorate_sum_group = group.size()  # 计算每个区域的均价,average_price_group字典x = decorate_sum_group.index  # 区域y = decorate_sum_group.values.astype(int)  # 区域对应的均价a =['t':'123'] a.keys()return x, y  # 返回区域与对应的均价,region二关 average_price均价# 显示均价条形图
def average_price_bar(x, y, title):plt.figure()  # 图形画布plt.bar(x, y, alpha=0.8)  # 绘制条形图plt.xlabel("装修类型")  # 区域文字plt.ylabel("数量")  # 均价文字plt.title(title)  # 表标题文字# 为每一个图形加数值标签for x, y in enumerate(y):plt.text(x, y + 100, y, ha='center')plt.show()if __name__ == '__main__':x, y = get_decorate_sum()title = '全市二手房装修程度分析'average_price_bar(x, y, title)

各区二手房数量所占比比例

# 获取各区二手房各区比例数量,进一步处理数据,如果要写相应算法,需要根据算法所需求的数据处理
def get_proportional_quantity():area = data['区域'].groupby(data['区域']).count()  # 将房子区域分组比例数量areaName = (area).index.values  # 将房子区域分组比例取名return area, areaName# 显示均价条形图
def proportional_quantity_pie(area, areaName, title):plt.figure()  # 图形画布plt.pie(area, labels=areaName, labeldistance=1.1, autopct='%.1f%%',shadow=True, startangle=90, pctdistance=0.7)plt.title(title, fontsize=24)  # 表标题文字plt.legend(bbox_to_anchor=(-0.1, 1))  # 作者标题plt.show()if __name__ == '__main__':# 对应x,yarea, areaName = get_proportional_quantity()title = '各区二手房数量所占比比例'proportional_quantity_pie(area, areaName, title)

热门户型均价分析

# 获取各区热门户型分析,根据需求,,进一步处理数据,如果要写相应算法,需要根据算法所需求的数据处理
def get_hot_portal():# 另外一种方法获取并取值"""group = data.groupby('户型').size  # 将房子区域分组sort_data = group.sort_values(ascending=False)  # 将户型分组数量进行降序five_data = sort_data.head()  # 提取前5组户型数据house_type_mean = data.groupby('户型')['单价'].mean().astype(int)  # 计算每个户型的均价x = house_type_mean[five_data.index].index  # 户型y = house_type_mean[five_data.index].value  # 户型对应的均价"""group = data.groupby('户型')  # 将房子区域分组a = group['户型'].count().sort_values(ascending=False).head()  # 计算每个户型的均价 字典b = group['单价'].mean()[a.index]  # 区域对应的均价a =['t':'123'] a.keys()x = b.indexy = b.values.astype(int)return x, y  # 返回区域与对应的均价,region二关 average_price均价# 显示均价横条形图
def hot_portal_barh(x, y, title):plt.figure()  # 图形画布plt.barh(x, y, alpha=0.9, color='red')  # 绘制条形图plt.xlabel("均价")  # 区域文字plt.ylabel("户型")  # 均价文字plt.title(title)  # 表标题文字plt.xlim(0, 15000)  # X轴的大小# 为每一个图形加数值标签for y, x in enumerate(y):plt.text(x + 100, y, str(x) + '元', ha='left')plt.show()if __name__ == '__main__':x, y = get_hot_portal()title = '热门户型均价分析'hot_portal_barh(x, y, title)

前面三个图较简单,最后相对于前面三个较为麻烦

先获取得到热门户型前五名,通过户型得到对应的户型的平均值

GitHub下载地址

CrawlerPractice

Python某地区二手房房价数据分析相关推荐

  1. 二手房房价数据分析与探索

    二手房房价数据分析与探索 0 数据说明 1 理解数据 2 数据清洗 2.1 去重 2.2 处理缺失值 2.3 文本数据清洗 2.4 异常数据清洗 2.5 数据描述性统计分析 3 房价情况分析 3.1 ...

  2. 使用python进行北京二手房信息数据分析及可视化展示

    之前我们爬取了贝壳找房上的北京二手房信息,具体可以查看python爬取贝壳找房之北京二手房源信息,现在我们针对获取的数据进行分析及可视化的展示,本文代码和数据均存放在github上,链接地址:贝壳找房 ...

  3. 利用Python进行King County房价数据分析

    本次又从kaggle上淘来了 King County 的房价数据,结合近期学习的Python分析工具,对影响房价的可能因素进行分析. 提出问题 随着国家对房产市场的宏观调控越来越严格,此前一路高歌猛进 ...

  4. 【Pyecharts | Map3D】带光影效果的3D地图 | 深圳地区二手房房价地图~

    效果 先看看最终实现的效果: 通过Pyecharts做的一个3D地图,用户展现深圳各个小区的平均房价数据,数据是来自于和鲸社区. 分步讲解 模块引入 import pandas as pd from ...

  5. 北京二手房房价分析(建模篇)

    数据科学俱乐部 中国数据科学家社区 本篇将继续上一篇数据分析用Python分析北京二手房房价之后进行数据挖掘建模预测,这两部分构成了一个简单的完整项目.结合两篇文章通过数据分析和挖掘的方法可以达到二手 ...

  6. Python技术知识清单(数据分析)

    给大家整理了一份Python开发技术学习清单,主要来自2018年Python中文社区往期文章,本期收录的是数据分析相关的知识点,建议新年佳节可以利用空闲时间多看看.祝大家猪年大吉,诸事顺利! Pyth ...

  7. python上海房价数据分析统计服_(干货)数据分析案例--以上海二手房为例

    如果你手上有一批数据,你可能应用统计学.挖掘算法.可视化方法等技术玩转你的数据,但你没有数据的时候,我该怎么玩呢?接下来就带着大家玩玩没有数据情况下的数据分析. 本文从如下几个目录详细讲解数据分析的流 ...

  8. python房价数据分析统计服_Python 爬取分析全国 12 个城市 4 万条房价信息,告诉你该怎样买房?...

    原标题:Python 爬取分析全国 12 个城市 4 万条房价信息,告诉你该怎样买房? 作者 | 月小水长 责编 | 伍杏玲通过分页.线程池.代理池等技术,快速爬取链家网近4万条在售二手房信息,速度可 ...

  9. python爬取分析深圳二手房房价

    刚入门学习Python爬虫,因为后边将会去深圳发展,所以练习了一个用python爬取深圳房价进行可视分析的项目,希望有所帮助. 好!进入正题! 我选择爬取的是链家网的深圳二手房网页,截图如下: 查看链 ...

  10. Python爬取20778套深圳二手房并数据分析

    白岩松曾说:"高房价正在毁掉无数年轻人的爱情,毁灭了年轻人的想象力."尤其是北上广深这类一线城市,对于一般的工薪阶层,买房更是难上加难.前不久,DT财经写了一篇文章<我只有3 ...

最新文章

  1. ReadResolve方法与序列化
  2. 微信小程序——收起和查看更多功能
  3. java 简单的计算器程序,Java 简易计算器程序
  4. 写MySQL存储过程实现动态执行SQL
  5. 《财富》:盖茨的四项黄金法则
  6. python调用百度语音实时转为文字_百度语音转文字 (Python)
  7. 避开10个面试大坑,接offer成功率提升至99%
  8. 你对java的看法 论文,一篇文章让你真正了解Java
  9. Eclipse中Build Workspace 优化
  10. osx 字体 linux,Linux/MacOS下matplotlib能正常显示的中文字体选择
  11. Coursera奖学金申请模板
  12. 七牛C#语言搭建javascript上传--包含后端请求token(前端javascript+后端c#)
  13. redhat oracle环境变量配置文件,Redhat7.2(7.1)下oracle8.17的安装手册-数据库专栏,ORACLE...
  14. 最彻底的玩客云绝育方法-避免持续读写损伤硬盘和资料
  15. Mysql笔记之 数据类型
  16. 达人评测 i9 13900H和i7 13700h差距 i913900H和i713700h选哪个
  17. Java8新的时间和日期
  18. 平面设计转UI设计难吗?
  19. UDT 最新源码分析(三) -- UDT Socket 相关函数
  20. Android软键盘的含义IME_ACTION_NEXT

热门文章

  1. win7无线网络突然不能用了(或打开无线按钮灰色)
  2. Ovi商店开发者注册发布指南
  3. php手机网页_使用PHPCMS搭建wap手机网站
  4. 大公司比较习惯问及的97道问题附答案
  5. 2:算法php/go [二分查找 ;二叉树的层序遍历 ;最长无重复子数组]
  6. 如何快速学从零开始学习3d建模?
  7. 清华EMBA课程系列思考之二 -- 清华探究及信息战略与管理
  8. iOS蓝牙开发(一)蓝牙相关基础知识
  9. python数据集获取与基本使用(sklearn自带的数据集、UCI数据集)
  10. MATLAB图像去雾处理