想到马上就要大四了离毕业也不远了,住学校的日子转瞬即逝,届时可能需要自己寻找新的栖身之处,于是对链家学校附近的租房信息进行爬取并分析,了解租房行情,为以后的租房未雨绸缪。

本文通过爬取链家天河区的房源信息,并全程使用Excel进行数据分析,文章较为详细,包含详细步骤。分析过程的逻辑图

提出问题

(一切数据分析都是以业务为核心目的)天河区房源的基本情况

房屋面积和租金的变化趋势

哪种户型的房子性价比较高

哪个区域的房子性价比较高

其他可能影响租金的因素(如:交通、房屋朝向、楼层、是否合租等)

爬取数据

工具:八爪鱼采集器

数据量:1503

爬取下来后导出为Excel的文件格式,打开进行预览。原始数据还算整齐

理解数据

原始数据有以下字段:城市,房源标题,房源上架时间,链家编号,价格,租赁方式,房型,楼层,面积,朝向,地铁,小区,位置,经度,纬度,房源照片链接,房源介绍,当前时间,页面网址

对数据进行预览,可以看到一些字段是我们不需要的,比如:城市、房源标题、房源上架时间等,为了保证数据完整性,对其进行隐藏。(因为往后可能会用到)

保留如下字段:链家编号,价格,租赁方式,房型,楼层,面积,朝向,地铁,小区,位置,经度,纬度

数据清洗

删除重复值

利用数据工具中的删除重复项

数据有无缺失值

利用筛选功能,检查数据缺失情况,发现:“朝向”字段有1个空值,“地铁”字段有508个空值

分析原因:

“朝向”字段只有一个缺失值,可能是房东没有填写,对结果影响不大可以忽略;

“地铁”字段:1.确实附近没有地铁站点 2.没有填写

处理方式:

如果同一小区名称下,都没有地铁信息,认为该位置附近没有地铁,对“地铁”字段的空值赋值“附近无地铁”

如果同一名称下出现有地铁信息,则将该信息填充到其他同小区名称的缺失值内。(筛选-颜色筛选-填充一个值后用Ctrl+Enter补全所有选中单元格)

数据一致化

“价格”字段,都带有单位,有的还带“(月付价)”的备注,但观察所有的价格都是月付价。将“价格”字段统一转化为纯数字的格式。--先利用分列功能将其转化成数字格式,然后在旁插入一个“租金”字段,利用快速填充的方式(Ctrl+E),填充处理后的数据到“租金”字段或者使用函数=LEFT(C2,FIND("元",C2)-1)

“房型”字段,将*室单独分出到新的字段“房型-室”--=LEFT(E2,FIND("室",E2)-1)

“楼层”字段,提取层数,保留数字-分列

“面积”字段,也是去除单位,保留数字--=LEFT(H2,FIND("㎡",H2)-1)

“朝向”字段,标准化--利用分列功能删除“朝”仅保留房向,而后利用查找和替换功能去除部分单元格内的空格

“位置”字段,观察后发现规律为“广州天河”+地标商圈+“的”+小区名,提取里面的地标商圈字眼--分列(共34个地标商圈

“经度”,“纬度”字段,左上角有小三角,利用分列功能将其转化为数字类型或者鼠标停留有提示转化为数字格式

格式清洗完毕!

对“租金”,“楼层”字段进行分组操作--新增“租金分组”,“楼层分组”字段,利用vlookup的模糊匹配进行分组

新增一列“每平米租金”--用“面积”字段除以“租金”字段生成。

(往后在计算如“交通”、“朝向”等于租金的相关性时还需要将文本数据存储的字段转化成数据格式,在这里就不展开了-具体操作就是定义相应数字代表字段分组中的某一个值)

数据清洗完成,对不需要的字段进行隐藏,再次检查是否有脏数据。

数据分析及可视化

天河区房源的基本情况

租金利用Excel内置的数据分析工具对租金字段的描述统计

链家天河区出租屋均价为2575元/月,最大(10)为4100元/月,最小(10)为800元/月,看来天河区的租房成本还是较高的,但从分布来看租金分布的离散程度较大,而月租普遍高于1500元/月。

房型

房型数量最多的前10项占了总数的94%,从图表可以看出数量最多的两种房型为“2室一厅一卫”和“一室一厅一卫”,供应也反映着需求,因为工薪一族还是出租屋的主要顾客。

面积

由图表可见,大部分出租屋的面积都不会太大,数量最多的出租屋面积在20㎡以内,面积比较小,单身公寓实用类型。

房屋面积和租金的变化趋势

租房面积对租金有一定的影响,但有部分的租房有一定的波动,这也许是市场上租房供给关系的影响(大面积的需求少),也可能是房屋的新旧情况,地理位置等其他因素的影响,总体而言,租金随着面积的增加而增加。

哪种户型的房子性价比较高

性价比最高的前10种房型如图所示,但由于有的数据量较少,从而对数据的结果产生影响,如“3室0厅0卫”虽然每平米的租金低,除了房型较为独特而且还有别的因素的影响如交通,面积等。相对而言“3室2厅1卫”和“2室2厅1卫”较为靠谱,性价比也比较高,合租可以适当考虑。

哪个区域的房子性价比较高

由图表可见,从房屋均价来看,租金平均水平较低的区域有:高唐,龙口西等;租金较高的区域是:岑村,龙洞,水荫,汇景新城等。从房源供应量来看,租金水平高的区域,房源供应量都不高,像东圃,棠下,天河公园,珠江新城等区域的房源供应较多。对于追求低价的租客可以综合考虑如下区域。

其他可能影响租金的因素(如:交通、房屋朝向、楼层、是否合租等)

交通-地铁相关系数在0.7以上说明关系非常紧密,0.4~0.7之间说明关系紧密,0.2~0.4说明关系一般

地铁临近的房源的确比附近无地铁的房源租金高但其实差距并不大,平均租金都在2500~2600元/月,相关分析表也显示相关系数较小,基本无相关性,可能是天河区地铁已经遍布了,但还是尽量选择靠近地铁的房源,出门方便。输出热力图观察地铁与房源的情况

朝向

从图表可以看出,房屋的朝向并不是影响租金水平的因素。

楼层

从图表可以看出,低楼层的租金相对高楼层的要贵。但是差距也不算太大,月租平均水平相差200元左右。应该受到供给关系的影响,低楼层方便,需求高。

是否合租

合租房的每月平均租金水平比整租低了接近900元/月,选择和别人合租,会减少在租房上的开支。是否合租与租金的相关关系为0.51,说明关系密切。

总结及建议

租房价格收多种因素的影响:如面积,户型,地段等,对于天河区的租房行情而言,交通、朝向对租金的影响不大,楼层和是否合租(还是整租)也是影响租金的因素

选择在天河区租房,租房的开支还是挺高的,为了减少开支,可以选择和别人合租,相对而言“3室2厅1卫”和“2室2厅1卫”的房型性价比较高,选择楼层为高楼层的房源,租金也会相对便宜。

这篇分析由于只抓取了链家网的部分数据且对数据的真实性未做核实,因此可能会导致分析结果不准确的问题。数据的源文件

python爬取链家租房信息_爬取链家租房信息数据分析相关推荐

  1. python爬取网页表格数据匹配_爬取表格类网站数据并保存为excel文件

    本文转载自以下网站:50 行代码爬取东方财富网上市公司 10 年近百万行财务报表数据 https://www.makcyun.top/web_scraping_withpython6.html 主要学 ...

  2. 芯片如何储存信息_手机上的你以为信息删了就彻底删除了?事情没那么简单

    往期精选▼ ◆全省严查!事关江西所有中小学校- ◆票数第一,吉抚武温高铁就会建在乐安吗? ◆致敬!乐安湖溪乡的她,才48岁就倒在基层工作岗位上... 在经历了N次买买买换换换之后,淘汰下来好几部旧手机 ...

  3. 链家网页爬虫_爬虫实战1-----链家二手房信息爬取

    经过一段机器学习之后,发现实在是太枯燥了,为了增添一些趣味性以及熟练爬虫,在之后会不定时的爬取一些网站 旨在熟悉网页结构--尤其是HTML的元素,ajax存储,json:熟练使用pyspider,sc ...

  4. 用python爬取东方财富网网页信息_爬取东方财富网数据的网页分析

    自学Python已有3个月之多,浏览无数大神的佳作,收获颇丰.当初自学python就是为了学习爬虫,爬取网站上好看妹子的图片--[流口水][流口水] 言归正传,近期学习量化交易知识,发现东方财富网(e ...

  5. 用python爬虫爬取东方财富网信息网页信息_爬取东方财富网数据的网页分析

    自学Python已有3个月之多,浏览无数大神的佳作,收获颇丰.当初自学python就是为了学习爬虫,爬取网站上好看妹子的图片--[流口水][流口水] 言归正传,近期学习量化交易知识,发现东方财富网(e ...

  6. python爬取职位信息_爬虫项目 智联-职位信息爬取

    [ { "招聘信息": [ " 职位月薪:15000-20000元/月 工作地点:北京 发布日期:2018-07-24 14:39:49 工作性质:全职 工作经验:3-5 ...

  7. python爬取路况信息_高德地图api获取路况信息(python版)

    1.依旧是先申请key 2.查看url https://restapi.amap.com/v3/traffic/status/circle?location=116.3057764,39.986413 ...

  8. python爬取饿了么评论_爬取饿了么官网数据 scrapy

    展开全部 Scrapy框架的初步运用 上午刚配置好scrapy框架,32313133353236313431303231363533e58685e5aeb931333363393734下午我就迫不及待 ...

  9. python爬取内容和f12不一致_爬取页面和审查元素获取的内容不一致

    今天看书看到 图片爬虫实战之爬取京东手机图片 这一节,想着自己动手练习一下,因为以前看过视频所以思路还是比较清晰,主要是为了复习巩固刚刚学的正则表达式. 打开京东手机页面, https://list. ...

  10. python爬取热门新闻每日排行_爬取网易新闻排行榜

    #网络爬虫之最基本的爬虫:爬取[网易新闻排行榜](http://news.163.com/rank/) **一些说明:** * 使用urllib2或requests包来爬取页面. * 使用正则表达式分 ...

最新文章

  1. No module named 'torch._C'
  2. python装饰器作用-什么是Python装饰器,有什么作用?
  3. 设计模式复习-工厂方法模式
  4. javascript 常用校验代码 2
  5. 双代号网络图节点编号原则_『干货』二级建造师考试高频考点 双代号网络图的详细解析...
  6. java实现给选中文字添加样式,天坑之路:用js给选中文字添加样式
  7. JavaScript版几种常见排序算法
  8. TabControl控件
  9. 为什么说学人工智能一定要学Python?
  10. 人工智能领域开展标准化研究
  11. linux 查找tomcat目录,linux下通过tomcat访问某路径下的文件
  12. 对HashMap对象的键值对内容进行排序
  13. 阶段2 JavaWeb+黑马旅游网_15-Maven基础_第3节 maven标准目录结构和常用命令_07maven常用命令...
  14. 胡萝卜,是鸡蛋,还是咖啡豆
  15. 《疯狂java讲义》第17章 网络编程
  16. SQL server 还原数据库遇到正在使用的解决方法:
  17. 论文浏览(45) MiCT: Mixed 3D/2D Convolutional Tube for Human Action Recognition
  18. 怎么查询服务器是什么操作系统,怎么查服务器什么操作系统
  19. android下划线链接,android7.0 TextView去除超链接下划线就这么难吗?
  20. 重装系统后Win10无故关机解决

热门文章

  1. 原生android tv 盒子,超强大的安卓7.0电视盒子是什么体验!
  2. 卡王。卡皇一个不为人知的密秘.必看(转)
  3. PCB测试流程分析介绍
  4. POJ 1080 Gene
  5. struts2中Action配置之通配符配置
  6. 北京内推 | 启元世界招聘虚拟人算法工程师/实习生
  7. 基于JavaEE的网吧自动计费管理系统设计与实现_信息管理__JSP网站设计_SQLServer数据库设计
  8. Review Board的几点使用体会
  9. htmlcleaner+xpath抓取网页数据
  10. 安装activesync同步时遇到的问题