上海链家网租房信息分析报告

前言

临近房子到期,需要寻找新的栖身之所。正好赶上最近在学习数据分析,于是尝试对链家网上的租房信息进行分析,了解一下最近的租房行情。

数据源

获取

因为链家的租房信息在不进行筛选的情况下,最多显示100页的数据,因此决定以不同区域作为筛选条件,通过python爬虫分别爬取上海不同区域的数据,最终得到20782条租房信息,虽然不是全部数据,但是用于分析应该是足够了。

处理

直接获取到的信息如下:

标题 户型 面积 价格 小区 链接 时间 坐标
生活很便利,高区阳光房,看房有钥匙,新鲜上架 1室1厅 45平 4000 崮山小区三街坊 http://sh.lianjia.com/zufang/shz4001407.html 2017.08.10上架 ‘121.568311’, u’31.245956’

其中由于链家的网页地图使用的是百度地图,因此获取到的坐标信息与真实的坐标信息有所偏差,需要使用百度地图的API进行转换。而且每平方米的平均租金在分析时也需要进行使用,因此对数据进行了处理,最终数据格式如下:

标题 户型 面积 价格 均价 小区 链接 时间 经度 纬度
生活很便利,高区阳光房,看房有钥匙,新鲜上架 1室1厅 45平 4000 88 崮山小区三街坊 http://sh.lianjia.com/zufang/shz4001407.html 2017.08.10上架 121.568311 31.245956

热力图


通过坐标信息在地图上进行映射,可以看出大部分的房源集中在上海市中心区域,长宁区的徐汇区附近的房源最为丰富,另外在市区周边区域,房源主要集中在奉贤区、松江区、青浦区和嘉定等区域。

标题分析

在链家网上查看房源时,每条房源信息中显示的就是房源的标题,链家网的房源标题比较长,类似于一个简介,因此我尝试对爬取到的房源标题进行一个统计,看看链家网在标题中使用频率最高词有哪些。

可以看出链家的标题中,出现频率比较高的词语有楼层,人气,实地看房等,另外生活便利,地铁的出现频率也不低,可见链家网的推荐方式主要是通过简述房源信息,并说明看房便利以及交通便利来进行描述。

户型占比

户型也是我们在租房时需要考虑的一环,而什么户型的房子最多这便成了一个问题,通过对房源户型进行统计后,结果如下:

户型 数目 占比
2室2厅 4715 22.7%
3室2厅 4270 20.5%
2室1厅 3876 18.7%
1室1厅 2832 13.6%
3室1厅 1149 5.5%
4室2厅 1049 5.0%
其他 2890 13.9%

户型的种类很多,因此截取频率前六的户型进行计算,结果发现大户型房子较多,而像适合个人单租的一室户反而占比很低,因此大部分人需要进行合租才能解决自己的住房问题。
通过一个饼状图更容易了解其中的分布:

面积性价比

通过计算每平米的的月平均租金,来计算租房面积的性价比,由此来找出性价比较高的房子,因为考虑到大部分人并不会去租面积十分大的房子,因此对截取了150平以下的房源数据进行统计计算:

由图可知平均租金随着面积的增大有明显的下降,在80平到130平左右基本持平,每平米的租金在70元左右,性价比最高,可以看出整租是一个性价较高的租赁方式,赶快拉着你的小伙伴去整租吧。

小区性价比

最后我们通过每平米的月平均租金来看看小区的性价比如果,通过对这2W多条数据进行分析,得出了如下结论:
- 性价比最高TOP10

可以看出以上小区的房源性价比是十分高的,每平米每月才需要10元左右。
- 性价比最低TOP10

性价比最低的小区,每平米的月平均租金居然高达850元左右,真是土豪的住所啊。

总结

这篇分析由于只抓取了链家网的部分数据且对数据的真实性未做核实,因此可能会导致分析结果不准确的问题。
另外在分析方面,分析的东西比较简单,无法对租房的选择进行明确的指引。
如果能抓取各大中介网站的数据并对其数据的真实有效性进行保证,同时结合租户的信息(如:公司地点,可接受的通勤时间等),也许租房的推荐问题便可以得到解决。

PS

本次分析的源码全部都已上传至github
此分析的所有数据仅用于学习、研究和交流目的,请勿用于商业目的。

上海链家网租房信息分析报告相关推荐

  1. 成都链家网租房信息分析报告

    前言 临近毕业,面临找工作找住所的问题.正好赶上正好赶上最近在学习数据分析,于是尝试对链家网上的租房信息进行分析,了解一下最近的租房行情. 提出猜想 简单分析了一下影响租房价格的因素,根据可以爬取到的 ...

  2. python爬房源信息_Python爬链家网租房信息

    爬去链家网的租房信息然后存储到数据库中. #-*- coding:utf-8 -*- import requests import re import random import MySQLdb fr ...

  3. python+selenium爬取链家网房源信息并保存至csv

    python+selenium爬取链家网房源信息并保存至csv 抓取的信息有:房源', '详细信息', '价格','楼层', '有无电梯 import csv from selenium import ...

  4. Python爬取链家北京租房信息!北京租房都租不起啊!

    一.效果图 二.代码 import re from fake_useragent import UserAgent from lxml import etree import asyncio impo ...

  5. 数据分析:pandas分析链家网二手房信息

    分析链家网南京市二手房信息 链家网二手房数据的采集方法参见之前的博客:数据采集(四):用XPath爬取链家网房价数据 总共有3000条二手房信息记录. import pandas as pd impo ...

  6. python爬取南京市房价_Python的scrapy之爬取链家网房价信息并保存到本地

    因为有在北京租房的打算,于是上网浏览了一下链家网站的房价,想将他们爬取下来,并保存到本地. 先看链家网的源码..房价信息 都保存在 ul 下的li 里面 ​ 爬虫结构: ​ 其中封装了一个数据库处理模 ...

  7. Python爬取链家北京租房信息

    刚学习了python,中途遇到很多问题,查了很多资料,最关键的就是要善于调试,div信息一定不要找错,下面就是我爬取租房信息的代码和运行结果: 链家的房租网站 两个导入的包 1.requests 用来 ...

  8. 成都双流区链家网租房python数据可视化

    0X00 数据来源:python爬虫获取链家二手房源信息 上一次我使用python爬取了链家上成都市双流区的一些租房信息,今天我们就来对爬取到的数据进行一些简单的数据可视化处理,学习学习python一 ...

  9. python爬取链家房价消息_Python的scrapy之爬取链家网房价信息并保存到本地

    因为有在北京租房的打算,于是上网浏览了一下链家网站的房价,想将他们爬取下来,并保存到本地. 先看链家网的源码..房价信息 都保存在 ul 下的li 里面 ​ 爬虫结构: ​ 其中封装了一个数据库处理模 ...

  10. Python爬虫攻略(2)Selenium+多线程爬取链家网二手房信息

    申明:本文对爬取的数据仅做学习使用,请勿使用爬取的数据做任何商业活动,侵删 前戏 安装Selenium: pip install selenium 如果下载速度较慢, 推荐使用国内源: pip ins ...

最新文章

  1. oracle判断值是否为0的高数,SQLServer和Oracle的常用函数对比
  2. python去重txt文本_Python 文件去重(转载)
  3. RHEL6 64bit下更改YUM配置。yum this system is not registered with rhn的解决办法
  4. 动图处理_面对单刀球的几种处理方法(动图演示)
  5. 【机器学习】岭回归(L2正则在干嘛!)
  6. win下配置nginx
  7. 使用kubectl管理k8s集群(三十)
  8. 玩转算法面试-第三章
  9. NLP学习—13.Seq2eq在机器翻译中的实战(bleu指标的代码实现)
  10. java毕业设计开题报告论文基于JavaWeb项目实现的高校学生在线选课系统
  11. 简单查询多个D速物流,并分析未签收延误的单号
  12. Java机器学习软件介绍
  13. 心理学推荐书籍——《色眼识人》
  14. 找同学 字典 11.12
  15. 什么是DNS云解析?云解析和普通解析有什么区别?
  16. (xy) + ( (x^y)>>1 )
  17. nokia x7 android 9.0,诺基亚X7升级Android 9.0系统 HDR拍照画质大幅提升
  18. 微信公众号授权(获取用户信息)
  19. docker - 端口占用
  20. 条形码扫描器通讯编程

热门文章

  1. java 枚举Enum
  2. html.ex.day02
  3. Win10系统隐藏文件资源管理器中的3D对象等七个文件夹
  4. docker容器无root 权限,如何获得docker容器里面的root权限
  5. c语言 extern的作用
  6. 【Meta Learning学习笔记】Meta Learning详解
  7. python移位运算,python移位运算
  8. 什么是TPS,什么是QPS,区别是什么?
  9. 新浪云mysql_php连接mysql数据库(新浪云SAE)
  10. 十大精选开源软件推荐:编程化繁为简