公众号:AI悦创

公众号最先发送!

本文给大家准备了房地产大数据,基于爬虫采集来自互联网的公开信息,数据可以分为 4块:

  • 小区信息
  • 二手房在售信息
  • 二手房成交信息
  • 租房信息

为了降低数据的清洗难度,提高实战的可重现性,爬虫在设计阶段注重考虑了数据采集的规整度,因此采集到的数据相对比较干净,但是距离直接用来可视化还是有相当距离的,本文,就来帮大家把这个坑填好~

房地产数据准备

房价,一个离我们很近又很远的词汇。很近是因为各路专家看空看多,各类政策隔三差五,一副好不热闹的样子;很远则是因为咱也不知道哪路专家说的对,也不清楚政策说的啥,就看看热闹。所以我们选择房价这个关键词,跟大家聊聊分析类的图表都是怎么绘制的。

本次提供的数据可以访问次链接:https://aiyc.lanzous.com/b00nvldhg 访问密码,请关注公众号:AI悦创。后台回复:fdc_data

还可以加入本公众号交流群一起交流学习,我在这里等你!

1、二手房历史成交数据

Chengjiao_NJ.csv 南京楼市近5年的二手房成交信息,主要信息字段如下:

字段 样例数据
标题 建康新村 2室1厅 49.07平米
朝向 南 北
装修 简装
基本信息 中楼层(共7层) 1995年建板楼
标签 近地铁
挂牌价 挂牌173万
成交周期 成交周期72天
成交日期 2019.12.08
成交价 163万
成交单价 33218元/平

2、二手房在售数据

Ershoufang_NJ.csv 南京楼市12月份二手房挂牌信息,主要信息字段如下:

字段 样例数据
数据采集日期 20191226
来源 南京房产网
城市定位 南京二手房
区县定位 浦口二手房
街道定位 江浦街道二手房
小区定位 东方熙龙山院二手房
当前房源 当前房源
房源标题 老山别墅双阳台可塑性高依山傍水
挂牌价 795万
挂牌单价 18575元/平米
小区 东方熙龙山院
房屋户型 7室1厅1厨3卫
所在楼层 低楼层(共7层)
建筑面积 428㎡
户型结构 平层
套内面积 390.61㎡
建筑类型 板楼
房屋朝向
建筑结构 钢混结构
装修情况 毛坯
梯户比例 一梯两户
配备电梯
产权年限 70年
挂牌时间 2019/6/21
交易权属 商品房
上次交易 2018/1/11
房屋用途 普通住宅
房屋年限 满两年
产权所属 非共有
抵押信息 有抵押300万元
房本备件 未上传房本照片
房源标签 地铁、VR房源
经度 118.6338
纬度 32.08735

3、小区基本信息

Xiaoqu_NJ.csv 南京市截止12月份的主要小区,主要信息字段如下:

字段 样例数据
数据采集日期 20191226
来源 南京房产网
城市定位 南京小区
区县定位 鼓楼小区
街道定位 福建路小区
小区定位 萨家湾
地址 (鼓楼福建路)铁路北街69号
标题 萨家湾
热度 2位用户已关注
参考均价 28628元/㎡11月参考均价
建筑年代 1990年建成
建筑类型 板楼
物业费 0.3元/平米/月
物业 街道办事处(委员会)代管物业
开发商 南京鼓楼城镇建设综合开发(集团)公司
楼栋总数 23栋
房屋总数 801户
附近房产中介 三牌楼二店B店/鼓楼区三牌楼大街交通一村2号
经度 118.7681
纬度 32.0886

4、12月份南京可租房源,主要信息字段如下:

字段 样例数据
标题 整租奥克斯钟山府 3室1厅 南/北
区县 玄武
街道 仙鹤门
小区 奥克斯钟山府
出租面积 89㎡
朝向 南北
户型 3室1厅1卫
楼层 低楼层(11层)
房源上架日期 5天前维护
房源标签 近地铁
租金 1500 元/月

小区数据清洗

从上面的罗列看,房地产大数据的数据结构相似度是很高的,因此这里以小区的数据为例,进行一次数据清洗的详细说明。

小区的各项指标可以分为两类。

一类是文字标签项,比如城市、区县、街道、小区名、开发商、物业、建筑类型等,这些指标很难量化,我们的目标是进行清洗提纯,去除文字中的杂质,方便后续统计。

第二类是数值型字段,比如价格、楼栋数、房屋数、经度、维度等,我们对数据进行分析,剔除异常值,并统一计量单位,以及根据分析项做一些数据维度的转换。比如建筑年代,可以转化成建成年份。

1. 删除关键信息为空的行

2. 丢弃无关信息列

3. 提取关键标签

观察"城市定位", “区县定位”, “街道定位”, "小区定位"四个字段,数据结构基本规整,为了整体效果,我们只需要删除"小区"关键词即可:

空值是处理字符串数据过程中常常会碰到的问题,这里为了能够顺利实现对空值的字符串替换,需要先把数据做一次字符串转化

删除目标列里的"小区"关键词

4. 提取信息中的关键数字

观察热度、参考均价、建筑年代等字段,是数字和文字的混合体。为了便于统计分析,需要把数字提取出来。一般来说,这类数据处理有2种方法,一种是利用数据的重复性,删除重复字符即可。另一种具有普适性的方法则是构建正则表达式,提取其中的整数或者浮点数。

Step 5: 剔除异常值

异常值是非常常见的一种数据情况,尤其是在爬虫采集的数据中,这种情况非常常见。比如我们这里的物业费:

显然这是超出常理的。但是在做数据可视化的过程中,也会伴随着对异常值的处理。因此这里我们暂时跳过这一步,在后续的可视化的过程中,我们再慢慢聊这个话题。

小区数据预览

经过简单的几个步骤,小区数据基本完成了标签化和数字化。

我们查阅一下南京各区的小区数量:

输出:

可以发现鼓楼区、江宁区、秦淮区是最大的人口聚集地(小区数量最多)。熟悉南京城市的朋友应该知道,鼓楼区是南京传统的老城区;而秦淮区也属于老城区之一,著名景点有夫子庙;江宁区面积广阔,是南京的各类工业聚集地,这几年随着江宁区的城市开发逐渐完善,人气也越来越旺。

清洗后的数据要及时保存起来,供后续使用,因此这里我们推荐将之保存为 csv 格式:

# 保留列名,取消行索引
xiaoqu_raw.to_csv("Xiaoqu_NJ_format.csv", index=False)

数据清洗总的来说要服务于具体业务,因此在开始这项工作之前,要先完成顶层设计工作,比如哪些字段是要丢弃的,哪些是要保存的,哪些字段是要拆分提取的,那些是通知指标需要保存的,此类场景不一而足,还需要大家在工作中注意观察和积累。

本篇代码,公众号后台回复:fdc_code01 敬请期待下一篇文章的更新!

「实战」南京房价的秘密——准备篇相关推荐

  1. 「实战」南京房价的秘密——小区价格篇「2」

    「实战」南京房价的秘密--准备篇 「实战」南京房价的秘密--小区价格篇「1」 案例二:南京历年小区建成情况-折线图 # 计算南京历年的小区建成数量 Jianzhu_tmp = Xiaoqu[" ...

  2. golang 接口_「实战」助力数据库开发之接口篇 - Golang 连接 Greenplum

    Greenplum 作为一款强大的 HTAP 数据库,针对大多数流行语言都有相应的连接库.大部分均是与 PostgreSQL 采用相同的接口,但是也有部分接口是 Greenplum 专门优化后用于自身 ...

  3. 「实战」谷歌广告账户可以退款吗?怎么退款?

    「实战」谷歌广告账户可以退款吗?怎么退款? https://baijiahao.baidu.com/s?id=1655623045768743633&wfr=spider&for=pc

  4. ospf多区域配置为什么ping不通_「实战」动态路由多区域 OSPF 基本配置,一分钟了解下...

    1.实战目的 (1)在路由器上启动 OSPF 路由进程 (2)启用参与路由协议的接口,并且通告网络及所在的区域 (3)LSA 的类型和特征 (4)不同路由器类型的功能 (5)OSPF 拓扑结构数据库的 ...

  5. oracle获取去年年份_「实战」中文检错纠错之语料获取与处理

    来源 | AI实战派 作者 | AI实战派 在自然语言处理领域中,语料是非常关键的一个部分.然而,中文的自然语言处理领域在大的通用型语料上虽然不少,但在特定方向上的语料仍然匮乏. 在要进行拼音型文本纠 ...

  6. html 轮播图_JS拖拽专题(二)——「实战」滑动轮播图的那点事儿

    欢迎来到我的JS拖拽专题系列文章,更多精彩内容持续更新中,欢迎关注 :) 上一章节我们说到了在js中拖拽的基本原理,即我们在鼠标按下的时候计算出鼠标位置和物理的位置的差值,这个差值在移动的过程中不恒定 ...

  7. 「实战」将多种AI工具整合到游戏开发工作流;AI应用推荐writeout;ControlNet新手实操流程图;ChatGPT复现之路 | ShowMeAI日报

  8. 「实战」蘑菇街 PC 端首页,瀑布流布局的实现原理与细节技巧

    作者:蘑菇街前端团队 链接:https://juejin.im/post/5e05acf0f265da33d158a1b1 零.介绍 这篇文章主要是介绍网站页面瀑布流布局的实现,主要包括: 瀑布流是什 ...

  9. 链上富人寻「隐私」记(一:Mixer 篇)

    一篇文章让我彻底暴露了.什么能拯救,零知识证明?! 最近有人说,谁掌握了区块链技术就掌握了财富. 好吧我摊牌了,我就是一个这样的「链上富人」. 10 月底,在最爱的<橙皮书

  10. 「leetcode」最强回溯算法总结篇!历时21天、画了20张树形结构图、14道精选回溯题目精讲

    本文 https://github.com/youngyangyang04/leetcode-master 已经收录,里面还有leetcode刷题攻略.各个类型经典题目刷题顺序.思维导图,可以fork ...

最新文章

  1. CUDA编程--并行矩阵向量乘法【80+行代码】
  2. 分布式事务Seata原理
  3. Luogu3732 [HAOI2017] 供给侧改革 【后缀数组】【线段树】【乱搞】
  4. 一个最简单的 Github workflow 例子
  5. string 转比较运算符_运算符
  6. oracle状态blocked,oracle 监听状态为BLOCKED
  7. 车险往年保单关联计算的性能优化
  8. SentinelResource注解配置下_客户自定义限流处理_削峰填谷_流量控制_速率控制_服务熔断_服务降级---微服务升级_SpringCloud Alibaba工作笔记0047
  9. Fiddler设置断点(一)
  10. 遗传算法解决TSP问题MATLAB实现(详细)
  11. 如何重置HDX卡的固件(firmware)
  12. js数组 reduce函数
  13. 句子迷,语录,俞凌雄
  14. android-长度单位-解析
  15. RelExt: Relation Extraction using Deep Learning approaches for Cybersecurity Knowledge Graph 阅读笔记
  16. 用画中画剪辑技巧,给每个视频添加背景图片
  17. python数据结构——无序,有序列表抽象数据类型,链表
  18. 企业打破私域“0”增长现状必读篇—《国外私域的超前形态》
  19. Linux环境下weblogic的安装与配置
  20. python代码编辑器android_三款可以在安卓手机上运行Python代码的软件

热门文章

  1. 固态硬盘SSD与机械硬盘HDD
  2. matlab绘制函数傅里叶,MATLAB中如何实现矩形函数的傅里叶变换
  3. 微信电脑版qq文件服务器,不用QQ微信,简单几步让电脑手机快速互传共享文件...
  4. php中的fpm_基于php-fpm的配置详解
  5. 一个学习C语言的好网站,推荐给大家
  6. webflux excel文件上传:java.io.IOException: Unable to read entire header; 0 bytes read; expected 512 byte
  7. 使用adb工具向android设备上传/下载文件
  8. 常见电商模式B2B、B2C、C2B、C2C、O2O
  9. 【Linux】将终端的命令输出保存为txt文本文件
  10. 计算机视觉论文-2021-11-03