python爬取链家租房信息_使用python爬取链家广州12108条租房信息,并做一些基础分析...
先上爬虫代码:GitHub
第一次写爬虫,1万多条数据,程序跑了10分钟,不会异步也不会多线程,新手默默学习中。。。
大致浏览一下数据:
包括:房屋描述,区域,地区,小区,房型,面积,楼层,朝向,价格,年限,更新时间,看房人数,网站从数据库导入数据
import pandas as pd
import pymysql
conn = pymysql.connect(user='root', password='123456', db='mysql', charset='utf8)
sql = "select * from lianjia_zufang;"
df = pd.read_sql(sql, conn)
房屋数量分布
先看看各个行政区有多少套房子在租:
df['区域'].value_counts()
Out[121]:
天河 2320
海珠 2070
白云 2024
番禺 2016
荔湾 1660
越秀 1019
黄埔 548
增城 351
花都 98
南沙 2
Name: 区域, dtype: int64
可以看到,在租房子最多的是天河(毕竟CBD地处天河),一共2320套,海珠、白云、番禺也有2000以上,而黄埔、增城、花都、南沙都只有600以下。
房租我们最关注的自然是房租
1、先看看广州房屋租金的均价:
df['价格'].mean()
Out[116]: 4476.5121407333991
4476.5元/月,由于链家上的租房几乎都是小区房,所以价格相对城中村要高出很多。
2、各个行政区的均价:
df.pivot_table('价格', index='区域', aggfunc='mean')
Out[123]:
价格
区域
南沙 1850.000000
增城 2644.415954
天河 6449.176724
海珠 4796.315942
番禺 4048.680556
白云 3647.347826
花都 2249.959184
荔湾 3358.348193
越秀 5171.309127
黄埔 3229.863139
不出所料,最贵的当属天河(毕竟CBD地处天河),其次是荔湾,最便宜的是南沙(从化没有数据)
使用R语言的ggplot2包画图直观的看一下:
3、再来看看广州租房最贵的前十的价格,以及月租超1万的有多少:
df.sort_index(by='价格', ascending=False)['价格'][:10]
Out[115]:
2873 126000
1699 100000
6267 90000
6203 90000
1172 70000
9083 70000
1239 65000
9053 60000
2773 60000
1281 60000
len(df[df['价格'] > 10000])
Out[117]: 440
可以看到,最贵的月租是126,000元/月,超1万月租的有440个,看来预留给土豪的租房还是挺多的。
那为什么最贵的租金能达到126,000元/月,我们找出其链接,仔细瞧瞧:
df.sort_index(by='价格', ascending=False).iloc[0,]['网站']
Out[120]: 'https://gz.lianjia.com/zufang/GZ0002955763.html'
可以看到,这是一栋450平的三层楼别墅,且地处麓湖旁,也难怪要这么贵了。但是仔细看,“本房带看:0”,且已发布68天,所以虽然有钱人多,但是毕竟一个月租金就抵了我等屌丝一年的工资了,后面的话就不说了。
4、我也通过链家租过房子,发现在楼梯房中,低楼层(5层以下)相对于中高楼层(5层或以上),租金要相对更贵一些,那么整个广州的情况是不是这样的呢?
一般来说,10楼以下算是楼梯房。所以首先需要拆分“楼层”一列,找出10楼以下的所有租房:
louceng = df['楼层'].str.split('共', expand=True)[1].str.split(
'层', expand=True)[0].astype(np.int64)
df_lc = df.iloc[louceng[louceng<= 10].index,]
df_lc['楼层'] = df_lc['楼层'].str.split('(', expand=True)[0]
接下来就可以看看,不同楼层的楼梯房的均价是多少:
df_lc.pivot_table('价格', index='楼层', aggfunc='mean')
Out[138]:
价格
楼层
中楼层 3147.789580
低楼层 4463.925785
未知楼层 3600.000000
高楼层 3029.949907
不出所料,低楼层相对中高楼层的租金,平均要高出1000多!!所以年轻人多爬爬楼还是能省不少钱的。
5、一般来说朝向也是决定房租的重要因素之一:
先看看分组统计情况:
df['朝向'].value_counts()
Out[139]:
南 4046
北 1976
南 北 1423
东南 1319
东 1089
西南 633
东北 580
西 551
西北 384
东 西 100
暂无数据 7
Name: 朝向, dtype: int64
我们要对比四个朝向的租金,故将“东南”、“西南”改为“南”,“东北”、“西北”,“南 北”与“东 西”意思是南北/东西通透,改为“通透”:
df['朝向'][df['朝向'] == '东南'] = "南"
df['朝向'][df['朝向'] == '西南'] = "南"
df['朝向'][df['朝向'] == '东北'] = "北"
df['朝向'][df['朝向'] == '西北'] = "北"
df['朝向'][df['朝向'] == '南 北'] = "通透"
df['朝向'][df['朝向'] == '东 西'] = "通透"
再看一下统计:
df['朝向'].value_counts()
Out[152]:
南 5998
北 2940
通透 1523
东 1089
西 551
暂无数据 7
Name: 朝向, dtype: int64
接下来就可以统计不同朝向的房屋租金均价的对比情况:
df1.pivot_table('价格', index='朝向', aggfunc='mean')
Out[153]:
价格
朝向
东 4068.001837
北 4416.052041
南 4407.339947
暂无数据 2471.428571
西 3890.382940
通透 5379.012475
按照我们的理解,朝南的房子租金应该更贵才对,但是从数据看来朝北的价格会相对更贵,当然这也可能是种种因素造成的。而南北/东西通透的房子租金要高出不少,这很容易理解。
房屋租金与面积之间是什么关系呢?面积越大是否租金越贵?
用R画图看看:
整体看来,确实是面积越大租金越贵。但是有一个面积超过1200的房子,租金却不是最高的,我们进去网页瞧一瞧:
df1[df1['面积'] > 1200]['网站']
Out[155]:
2773 https://gz.lianjia.com/zufang/GZ0002618107.html
Name: 网站, dtype: object
啊,是一栋办公楼,难怪比住房租金便宜。
听说有很多人想去腾讯大楼蹲点“求打发”,不如看看广州哪个小区更值得蹲点:
df1.pivot_table('价格', index='小区', aggfunc='mean').sort_values(
by='价格', ascending=False)[:10]
Out[164]:
价格
小区
麓湖名轩鸿燊北路 126000.000000
侨鑫汇悦台 62666.666667
汇景新城世家 60000.000000
广州雅居乐花园御景峰 58333.333333
南油大厦 48000.000000
二沙岛花城苑 48000.000000
凯旋新世界广粤尊府 42500.000000
凯旋会 42000.000000
金碧华府D区 40000.000000
天汇广场天銮 40000.000000
有一起组队的吗?QAQ
第一次写知乎,敬请各位大神指导!!!
python爬取链家租房信息_使用python爬取链家广州12108条租房信息,并做一些基础分析...相关推荐
- python爬房源信息_用python爬取链家网的二手房信息
题外话:这几天用python做题,算是有头有尾地完成了.这两天会抽空把我的思路和方法,还有代码贴出来,供python的初学者参考.我python的实战经历不多,所以代码也是简单易懂的那种.当然过程中还 ...
- python爬取旅游信息_用Python爬取了全国近5000家旅游景点,分析国庆去哪玩
2020 国庆马上就要到了 我想今年大家在家都憋坏了 今年国庆和中秋刚好又是同一天,加起来有 8 天假 这么长的假期,当然是出去 玩玩玩! 但是每次长假期间,你有没有想起被人山人海支配的恐惧呢? 那么 ...
- 如何使用python编程抢京东优惠券 知乎_学好Python爬取京东知乎价值数据
原标题:学好Python爬取京东知乎价值数据 Python爬虫为什么受欢迎 如果你仔细观察,就不难发现,懂爬虫.学习爬虫的人越来越多,一方面,互联网可以获取的数据越来越多,另一方面,像 Python这 ...
- python爬取微信朋友圈图片_使用python itchat包爬取微信好友头像形成矩形头像集的方法...
初学python,我们必须干点有意思的事!从微信下手吧! 头像集样例如下: 大家可以发朋友圈开启辨认大赛哈哈~ 话不多说,直接上代码,注释我写了比较多,大家应该能看懂 import itchat im ...
- python爬取微博数据词云_用Python爬取微博数据生成词云图片
原标题:用Python爬取微博数据生成词云图片 欢迎关注天善智能 hellobi.com,我们是专注于商业智能BI,大数据,数据分析领域的垂直社区,学习.问答.求职,一站式搞定! 对商业智能BI.大数 ...
- python为啥爬取数据会有重复_利用Python来爬取“吃鸡”数据,为什么别人能吃鸡?...
原标题:利用Python来爬取"吃鸡"数据,为什么别人能吃鸡? 首先,神装镇楼 背景 最近老板爱上了吃鸡(手游:全军出击),经常拉着我们开黑,只能放弃午休的时间,陪老板在沙漠里奔波 ...
- python百度贴吧怎么爬取最早的帖子_【Python爬虫教学】百度篇·手把手教你抓取百度贴吧任意贴吧指定范围页数内的源代码...
开门见山. 懒癌一犯,能拖一天是一天. 好了,亲爱的小伙伴们,我又回来了!今天带来的是抓取输入的任意贴吧,抓取指定范围页数内的源代码. 工具: 依旧是 PyCharm 和 Google 浏览器,pyt ...
- python分类信息_用Python分析了 7 万款 App后,我们发现...
原标题:用Python分析了 7 万款 App后,我们发现... 本文中使用 Scrapy 爬取了豌豆荚全网 70,000+ App ,并进行探索性分析. 写在前面:若对数据抓取部分不感兴趣,可以直接 ...
- python查看物理内存和交换区的统计信息_使用python获取CPU和内存信息的思路与实现(linux系统)...
linux里一切皆为文件,在linux/unix的根文件夹下,有个/proc文件夹,这个/proc 是一种内核和内核模块用来向进程(process)发送信息的机制(所以叫做"/proc&qu ...
- python打包加版本信息_使用pyi-set_version为PyInstaller打包出来的程序附加版本信息...
本文将讲述如何使用 pyi-grab_version获取版本信息的模板文件,以及使用 pyi-set_version为打包好的程序附加版本信息. 当然了,在开始前,需要你已经安装好了 PyInstal ...
最新文章
- 数据输出:如何将数据带给页面||SpringMVC除过在方法上传入原生的request和session外还能怎么样把数据带给页面
- python操作Excel读写--使用xlrd
- 关于Windows Unicode 编码的问题
- 项目管理中网络图的看法和相关参数阅读说明
- Python基础----日期时间
- C语言里printf函数格式控制符的完整格式
- 教你如何在Ubuntu中创建 Sudo用户
- Michael Feathers希望消除错误能驱动设计
- fastjson SerializerFeature 详解
- 睿智的目标检测51——Tensorflow2搭建yolo3目标检测平台
- 中段尾段全段什么意思_排气管中段 尾段 全段 和芭蕉 是什么意思
- [测试通过]svn详细权限配置
- C语言中p=(1 r) n,如何计算p=c/(1+r)+c/(1+r)*(1+r)+........+c/(1+r)的n次方+m/(1+r)的n次方
- 集群断电重启The connection to the server apiserver.k8s:6443 was refused - did you specify the right
- 4、关于step的设置
- 公网IP,内网IP,动态IP,静态IP的区别
- 第一个ASP.net的CRED(创建读取编辑删除)页面
- 新概念二册 lesson 3 一般过去式
- Perl正则表达式超详细教程
- C#编程学习35:对MDB数据库的操作