Python爬取链家网24685个租房信息并进行数据分析
2020年注定是一个不平凡的年份,很多行业受疫情影响艰难前行,即便复产复工提速,被抑制的需求也难以短期释放。与此同时,地摊经济孕育而生,如果人们真的都去摆地摊了,是不是也会出现睡地摊的普遍现象?这时候可能需要思考一下睡地摊的收益和风险了,在没有自有住房的前提假设下,我们是该睡地摊还是租房呢?
针对这些问题,本文以深圳市为例,爬取了链家网最新发布的24685个房源租赁信息,包括房源地区分布、楼盘名称、租金、押金、租赁方式、品牌、户型、租期、朝向、水电燃气电梯配套、楼层等22个字段。然后,清洗数据并做可视化分析,试图回答以下几个问题:
1.深圳房屋租赁市场现状如何?
2.深圳哪些地区房源比较多且房租相对便宜,集中在哪些楼盘?
3.性价比较高的房源具有哪些特征?
一、数据获取
本文主要以数据分析为主,关于数据获取仅提供爬虫思路,如果对数据爬虫感兴趣可以前往本人公众号「菜J学Python」查看往期原创爬虫文章。由于链家限制每个地区仅可查看3000条记录(100页每页30条记录),所以针对记录数大于3000的地区需继续遍历子地区,才能获得更全面的数据。
爬虫代码写完后运行一下,效果如下:
二、数据清洗
本文数据清洗用到Pandas,限于篇幅,仅简单提供核心字段清洗方法,如果对数据清洗感兴趣可以前往本人公众号「菜J学Python」查看往期原创Pandas基础文章。
首先预览下要分析的数据,长这样:
1.rent_district字段清洗
2.rent_title字段清洗
3.house_type字段清洗
4.house_louceng字段清洗
5.zujin字段清洗
数据清洗后存入Mysql数据库,长这样:
三、数据分析
数据处理好了,接下来就是写sql语句从数据库取数作图,关于sql相关的内容本公众号后续也会补充。本次数据分析写的sql语句主要如下:
关于作图,用的工具就相对多一些,本次数据分析作图涉及Python内置作图库、Echarts、BI等。
1.深圳房屋租赁市场现状如何?
(1)地区分布
由图可知,深圳在租房源主要集中在福田区、南山区和龙岗区,大鹏新区、坪山区和光明区在租房源数量较小,一定程度上反映出各地区房屋租赁市场的发展情况。
南山区和福田区平均房租最高,而影响房租的主要因素为地价和经济发展水平。可见,既想在经济繁华区打工获得高额工资又想租到便宜的房子,是行不通的。
(2)租赁方式
从租赁方式来看,深圳以整租为主,合租的房源极少。当然,现实中也存在很多这样的情况:一个整租房由不同的租户合租;一个整租房由一个租户租下,并转租给其他租户(俗称二房东)。
(3)中介品牌
链家网入驻的房产中介品牌很多,占比较高的有链家、德佑、糯家等。德佑占比高主要源自它与链家的关系,2015年上海的德佑地产与北京链家合并。而就目前来看,各个品牌与链家之间更像是加盟入驻关系。
(4)居室
从居室来看,3室的房屋最多,其次是2室和1室,4室及以上的房子较少。房租的价格与居室的关系就不用说了,自然是居室越多平均房租越高了。
(5)楼层
从楼层来看,租赁住房以中高层为主,各楼层房租差异不大,低层房租相对更高一些。至于地下室,经过下钻分析,发现其主要是供批发商租用囤货的。
(6)朝向
从朝向来看,招租房屋主要朝南和东南,而朝向东南的房屋平均房租最高,毕竟坐拥优越自然地理条件。朝向为南的房屋房源多,房租也相对较低,性价比相对更高。
(7)看房要求
租房前切勿直接去找想要租的房屋,因为很有可能空无一人。基本都要提前预约,有些房屋还只能周末或者房主下班后看房。
(8)中介费
中介费基本没有公示出来,毕竟涉及到房产中介的利益,比较敏感。仅有的22套列明中介费的房源平均中介费为5362元,还是很香的。
(9)支付方式
房租的支付方式也比较灵活,月付和年付的相对少见一些,如果有中介要求年付一定要三思。其实,租赁市场更常见的是押一付三、押一付二等支付方式。
2.深圳哪些地区房源比较多且房租相对便宜,集中在哪些楼盘?
由前面的分析我们其实已经知道,优越位置和低价房租两者难以兼得,因此我们只能选择折中的策略。首先,我们看下房源数量最多的福田区、南山区和龙岗区的房租情况。
我们再看一下各地区平均月房租低于5000元的房源数量:
很显然,龙岗区租赁房源多且平均房租相对较低。另外,龙岗区距离福田区、罗湖区等经济繁华区也较近,上下班交通较为方便,租房性价比还是挺高的。
3.相对便宜的房源具有哪些特征?
既然锁定了目标,那我们继续下钻分析,看看这些性价比较高的房源具有哪些特征。首先,我们找到龙岗区平均房租在5000元/月以下的楼盘。
继续下钻,看看房源数量最多的几个楼盘具有什么样的特征。
TOP1:远洋新干线一期
TOP2:国展苑
TOP3:招商依山郡
TOP4:中海康城国际一期
TOP5:保利上城
整体来看,这些房源普遍面积较小,基本都在高层,只有少量房源拥有租用车位,但水、电、电梯等基础设施配套齐全,可以满足一般摆摊者的需求。
结语
综上分析,在睡地摊和租房的选择上,睡地摊完败,因为至少还有性价比较高的房子可租。至此,关于租房的数据分析告一段落,敬请期待J哥更多原创文章。当然,本文也还存在一些不足,数据分析的深度和广度还有待进一步提高。
声明
1.本数据分析只做学习研究之用途,提供的结论仅供参考,租房的选择涉及的影响因素还有很多,还请独立思考;
2.作者与链家无任何瓜葛,只是他家数据比较全比较干净便于数据分析,大家也可以去其他平台看看这些楼盘的情况,货比三家;
3.作者对地摊经济了解甚微,相关描述可能存在不当之处,请勿上纲上线。
关注微信公众号「菜J学Python」,后台回复“入群”进群和大家一起学习。
Python爬取链家网24685个租房信息并进行数据分析相关推荐
- python爬房源信息_用python爬取链家网的二手房信息
题外话:这几天用python做题,算是有头有尾地完成了.这两天会抽空把我的思路和方法,还有代码贴出来,供python的初学者参考.我python的实战经历不多,所以代码也是简单易懂的那种.当然过程中还 ...
- python爬取链家网的房屋数据
python爬取链家网的房屋数据 爬取内容 爬取源网站 爬取内容 爬取思路 爬取的数据 代码 获取房屋url 获取房屋具体信息 爬取内容 爬取源网站 北京二手房 https://bj.lianjia. ...
- python 爬取链家数据_用python爬取链家网的二手房信息
题外话:这几天用python做题,算是有头有尾地完成了.这两天会抽空把我的思路和方法,还有代码贴出来,供python的初学者参考.我python的实战经历不多,所以代码也是简单易懂的那种.当然过程中还 ...
- 爬取链家网站中的租房信息
爬取链家网站中的租房信息 信息爬取代码 信息爬取代码 import requests from lxml import etree import pandas as pdwith open('zufa ...
- Python 小项目 01 爬虫项目 爬取链家网南京地区二手房信息
SpiderLianjia 介绍 python爬虫小程序,爬取链家网南京地区普通住宅二手房数据. 代码下载: https://gitee.com/lihaogn/SpiderLianjia 1 程序设 ...
- 爬取链家网站的北京租房信息
本来准备这个暑假好好复习,但学校安排暑期实践,既然学校安排这个,而且我自己也觉得需要提高一下自己的能力,所以静下心来做点事吧.我们要做到项目是分析北京地区的租房的信息分析. 我们需要做的是爬取链家网站 ...
- python 爬取链家网北京租房信息
刚学习了python,中途遇到很多问题,查了很多资料,最关键的就是要善于调试,div信息一定不要找错,下面就是我爬取租房信息的代码和运行结果: 链家的房租网站 两个导入的包 1.requests 用来 ...
- Python爬取链家网获取二手房数据并调用高德api获得经纬度
链家网获得数据地址,高德api获得经纬度(同理链家网也可以换成其他58同城,赶集网的数据,因为反爬虫比较厉害,没时间整,就用链家网的数据先试试水) 首先爬链家网,Info包含一条信息 import j ...
- python爬取链家网实例——scrapy框架爬取-链家网的租房信息
说明: 本文适合scrapy框架的入门学习. 一.认识scrapy框架 开发python爬虫有很多种方式,从程序的复杂程度的角度来说,可以分为:爬虫项目和爬虫文件. scrapy更适合做爬虫项目,ur ...
最新文章
- 关于webservice的异步调用简单实例
- 关于BIO | NIO | AIO的讨论
- python——def自定义函数的应用
- 全网最详细的Xshell或SecureCRT下spark-shell里出现无法退格或者删除的问题现象的解决办法(图文详解)...
- sql server 索引学习1
- 计算机的收获初一作文,初一关于收获的作文
- SAP Leonardo及客户案例
- C++非递归合并排序的通用实现算法(附完整源码)
- 【Python】从0开始写爬虫——扒狗东先流产了
- node --- 实践中理解跨域
- 使用 FieldMask 提高 C# gRpc 服务性能
- 马云融资80亿美金的“资本”
- RS232, RS422, RS485 引脚布局区别
- freemarker 数组转字符串_TypeScript 实战算法系列(一):实现数组栈与对象栈
- 计算机基础(十):git仓库管理命令小结
- idea weblogic 部署慢_IDEA+weblogic部署运行项目
- python request下载文件_python下载文件的三种方法
- REST Assured 系列汇总
- dataGrid使用deleteRow删除数据时会出现 ‘id‘ of undefined
- jsp中获取不到servlet中的ArrayList
热门文章
- 《Graph-MLP Node Classification without Message Passing in Graph》阅读笔记
- 鸿蒙之连接IoT云平台(华为云)
- 透明表盘 指南针 app_指南:在Web设计中使用透明度(不透明度)
- 智邦国际ERP信息化管理生产返工汇报
- 转载,日本的四代消费观
- 如何使用Docker搭建PhotoPrism - 打造基于AI私有化的个人相册系统
- IFrame使用-1
- 深层解读:唯品会、乐蜂、聚美的那些事
- matlab 反步法,基于Matlab-Cod的Python反步法编程
- cocos lua -- 文字拼接及颜色处理(富文本)