先上爬虫代码:GitHub

第一次写爬虫,1万多条数据,程序跑了10分钟,不会异步也不会多线程,新手默默学习中。。。

大致浏览一下数据:

包括:房屋描述,区域,地区,小区,房型,面积,楼层,朝向,价格,年限,更新时间,看房人数,网站从数据库导入数据

import pandas as pd

import pymysql

conn = pymysql.connect(user='root', password='123456', db='mysql', charset='utf8)

sql = "select * from lianjia_zufang;"

df = pd.read_sql(sql, conn)

房屋数量分布

先看看各个行政区有多少套房子在租:

df['区域'].value_counts()

Out[121]:

天河 2320

海珠 2070

白云 2024

番禺 2016

荔湾 1660

越秀 1019

黄埔 548

增城 351

花都 98

南沙 2

Name: 区域, dtype: int64

可以看到,在租房子最多的是天河(毕竟CBD地处天河),一共2320套,海珠、白云、番禺也有2000以上,而黄埔、增城、花都、南沙都只有600以下。

房租我们最关注的自然是房租

1、先看看广州房屋租金的均价:

df['价格'].mean()

Out[116]: 4476.5121407333991

4476.5元/月,由于链家上的租房几乎都是小区房,所以价格相对城中村要高出很多。

2、各个行政区的均价:

df.pivot_table('价格', index='区域', aggfunc='mean')

Out[123]:

价格

区域

南沙 1850.000000

增城 2644.415954

天河 6449.176724

海珠 4796.315942

番禺 4048.680556

白云 3647.347826

花都 2249.959184

荔湾 3358.348193

越秀 5171.309127

黄埔 3229.863139

不出所料,最贵的当属天河(毕竟CBD地处天河),其次是荔湾,最便宜的是南沙(从化没有数据)

使用R语言的ggplot2包画图直观的看一下:

3、再来看看广州租房最贵的前十的价格,以及月租超1万的有多少:

df.sort_index(by='价格', ascending=False)['价格'][:10]

Out[115]:

2873 126000

1699 100000

6267 90000

6203 90000

1172 70000

9083 70000

1239 65000

9053 60000

2773 60000

1281 60000

len(df[df['价格'] > 10000])

Out[117]: 440

可以看到,最贵的月租是126,000元/月,超1万月租的有440个,看来预留给土豪的租房还是挺多的。

那为什么最贵的租金能达到126,000元/月,我们找出其链接,仔细瞧瞧:

df.sort_index(by='价格', ascending=False).iloc[0,]['网站']

Out[120]: 'https://gz.lianjia.com/zufang/GZ0002955763.html'

可以看到,这是一栋450平的三层楼别墅,且地处麓湖旁,也难怪要这么贵了。但是仔细看,“本房带看:0”,且已发布68天,所以虽然有钱人多,但是毕竟一个月租金就抵了我等屌丝一年的工资了,后面的话就不说了。

4、我也通过链家租过房子,发现在楼梯房中,低楼层(5层以下)相对于中高楼层(5层或以上),租金要相对更贵一些,那么整个广州的情况是不是这样的呢?

一般来说,10楼以下算是楼梯房。所以首先需要拆分“楼层”一列,找出10楼以下的所有租房:

louceng = df['楼层'].str.split('共', expand=True)[1].str.split(

'层', expand=True)[0].astype(np.int64)

df_lc = df.iloc[louceng[louceng<= 10].index,]

df_lc['楼层'] = df_lc['楼层'].str.split('(', expand=True)[0]

接下来就可以看看,不同楼层的楼梯房的均价是多少:

df_lc.pivot_table('价格', index='楼层', aggfunc='mean')

Out[138]:

价格

楼层

中楼层 3147.789580

低楼层 4463.925785

未知楼层 3600.000000

高楼层 3029.949907

不出所料,低楼层相对中高楼层的租金,平均要高出1000多!!所以年轻人多爬爬楼还是能省不少钱的。

5、一般来说朝向也是决定房租的重要因素之一:

先看看分组统计情况:

df['朝向'].value_counts()

Out[139]:

南 4046

北 1976

南 北 1423

东南 1319

东 1089

西南 633

东北 580

西 551

西北 384

东 西 100

暂无数据 7

Name: 朝向, dtype: int64

我们要对比四个朝向的租金,故将“东南”、“西南”改为“南”,“东北”、“西北”,“南 北”与“东 西”意思是南北/东西通透,改为“通透”:

df['朝向'][df['朝向'] == '东南'] = "南"

df['朝向'][df['朝向'] == '西南'] = "南"

df['朝向'][df['朝向'] == '东北'] = "北"

df['朝向'][df['朝向'] == '西北'] = "北"

df['朝向'][df['朝向'] == '南 北'] = "通透"

df['朝向'][df['朝向'] == '东 西'] = "通透"

再看一下统计:

df['朝向'].value_counts()

Out[152]:

南 5998

北 2940

通透 1523

东 1089

西 551

暂无数据 7

Name: 朝向, dtype: int64

接下来就可以统计不同朝向的房屋租金均价的对比情况:

df1.pivot_table('价格', index='朝向', aggfunc='mean')

Out[153]:

价格

朝向

东 4068.001837

北 4416.052041

南 4407.339947

暂无数据 2471.428571

西 3890.382940

通透 5379.012475

按照我们的理解,朝南的房子租金应该更贵才对,但是从数据看来朝北的价格会相对更贵,当然这也可能是种种因素造成的。而南北/东西通透的房子租金要高出不少,这很容易理解。

房屋租金与面积之间是什么关系呢?面积越大是否租金越贵?

用R画图看看:

整体看来,确实是面积越大租金越贵。但是有一个面积超过1200的房子,租金却不是最高的,我们进去网页瞧一瞧:

df1[df1['面积'] > 1200]['网站']

Out[155]:

2773 https://gz.lianjia.com/zufang/GZ0002618107.html

Name: 网站, dtype: object

啊,是一栋办公楼,难怪比住房租金便宜。

听说有很多人想去腾讯大楼蹲点“求打发”,不如看看广州哪个小区更值得蹲点:

df1.pivot_table('价格', index='小区', aggfunc='mean').sort_values(

by='价格', ascending=False)[:10]

Out[164]:

价格

小区

麓湖名轩鸿燊北路 126000.000000

侨鑫汇悦台 62666.666667

汇景新城世家 60000.000000

广州雅居乐花园御景峰 58333.333333

南油大厦 48000.000000

二沙岛花城苑 48000.000000

凯旋新世界广粤尊府 42500.000000

凯旋会 42000.000000

金碧华府D区 40000.000000

天汇广场天銮 40000.000000

有一起组队的吗?QAQ

第一次写知乎,敬请各位大神指导!!!

python爬取链家租房信息_使用python爬取链家广州12108条租房信息,并做一些基础分析...相关推荐

  1. python爬房源信息_用python爬取链家网的二手房信息

    题外话:这几天用python做题,算是有头有尾地完成了.这两天会抽空把我的思路和方法,还有代码贴出来,供python的初学者参考.我python的实战经历不多,所以代码也是简单易懂的那种.当然过程中还 ...

  2. python爬取旅游信息_用Python爬取了全国近5000家旅游景点,分析国庆去哪玩

    2020 国庆马上就要到了 我想今年大家在家都憋坏了 今年国庆和中秋刚好又是同一天,加起来有 8 天假 这么长的假期,当然是出去 玩玩玩! 但是每次长假期间,你有没有想起被人山人海支配的恐惧呢? 那么 ...

  3. 如何使用python编程抢京东优惠券 知乎_学好Python爬取京东知乎价值数据

    原标题:学好Python爬取京东知乎价值数据 Python爬虫为什么受欢迎 如果你仔细观察,就不难发现,懂爬虫.学习爬虫的人越来越多,一方面,互联网可以获取的数据越来越多,另一方面,像 Python这 ...

  4. python爬取微信朋友圈图片_使用python itchat包爬取微信好友头像形成矩形头像集的方法...

    初学python,我们必须干点有意思的事!从微信下手吧! 头像集样例如下: 大家可以发朋友圈开启辨认大赛哈哈~ 话不多说,直接上代码,注释我写了比较多,大家应该能看懂 import itchat im ...

  5. python爬取微博数据词云_用Python爬取微博数据生成词云图片

    原标题:用Python爬取微博数据生成词云图片 欢迎关注天善智能 hellobi.com,我们是专注于商业智能BI,大数据,数据分析领域的垂直社区,学习.问答.求职,一站式搞定! 对商业智能BI.大数 ...

  6. python为啥爬取数据会有重复_利用Python来爬取“吃鸡”数据,为什么别人能吃鸡?...

    原标题:利用Python来爬取"吃鸡"数据,为什么别人能吃鸡? 首先,神装镇楼 背景 最近老板爱上了吃鸡(手游:全军出击),经常拉着我们开黑,只能放弃午休的时间,陪老板在沙漠里奔波 ...

  7. python百度贴吧怎么爬取最早的帖子_【Python爬虫教学】百度篇·手把手教你抓取百度贴吧任意贴吧指定范围页数内的源代码...

    开门见山. 懒癌一犯,能拖一天是一天. 好了,亲爱的小伙伴们,我又回来了!今天带来的是抓取输入的任意贴吧,抓取指定范围页数内的源代码. 工具: 依旧是 PyCharm 和 Google 浏览器,pyt ...

  8. python分类信息_用Python分析了 7 万款 App后,我们发现...

    原标题:用Python分析了 7 万款 App后,我们发现... 本文中使用 Scrapy 爬取了豌豆荚全网 70,000+ App ,并进行探索性分析. 写在前面:若对数据抓取部分不感兴趣,可以直接 ...

  9. python查看物理内存和交换区的统计信息_使用python获取CPU和内存信息的思路与实现(linux系统)...

    linux里一切皆为文件,在linux/unix的根文件夹下,有个/proc文件夹,这个/proc 是一种内核和内核模块用来向进程(process)发送信息的机制(所以叫做"/proc&qu ...

  10. python打包加版本信息_使用pyi-set_version为PyInstaller打包出来的程序附加版本信息...

    本文将讲述如何使用 pyi-grab_version获取版本信息的模板文件,以及使用 pyi-set_version为打包好的程序附加版本信息. 当然了,在开始前,需要你已经安装好了 PyInstal ...

最新文章

  1. 数据输出:如何将数据带给页面||SpringMVC除过在方法上传入原生的request和session外还能怎么样把数据带给页面
  2. python操作Excel读写--使用xlrd
  3. 关于Windows Unicode 编码的问题
  4. 项目管理中网络图的看法和相关参数阅读说明
  5. Python基础----日期时间
  6. C语言里printf函数格式控制符的完整格式
  7. 教你如何在Ubuntu中创建 Sudo用户
  8. Michael Feathers希望消除错误能驱动设计
  9. fastjson SerializerFeature 详解
  10. 睿智的目标检测51——Tensorflow2搭建yolo3目标检测平台
  11. 中段尾段全段什么意思_排气管中段 尾段 全段 和芭蕉 是什么意思
  12. [测试通过]svn详细权限配置
  13. C语言中p=(1 r) n,如何计算p=c/(1+r)+c/(1+r)*(1+r)+........+c/(1+r)的n次方+m/(1+r)的n次方
  14. 集群断电重启The connection to the server apiserver.k8s:6443 was refused - did you specify the right
  15. 4、关于step的设置
  16. 公网IP,内网IP,动态IP,静态IP的区别
  17. 第一个ASP.net的CRED(创建读取编辑删除)页面
  18. 新概念二册 lesson 3 一般过去式
  19. Perl正则表达式超详细教程
  20. C#编程学习35:对MDB数据库的操作

热门文章

  1. 【Android 开发入门】我为什么要在Android找工作越来越难的时候开始学习它
  2. 大学计算机基础排版和打印毕业论文,大学计算机基础-电子教案第5章
  3. 扫读笔好还是点读笔好 有什么区别
  4. live555 RTSP服务器与客户端通信源码分析
  5. 磁盘、u盘、移动硬盘被写保护了,不能复制文件,解决方案
  6. 哈夫曼树构造及哈夫曼编码
  7. (2.3)【遥控型木马-网络神偷】
  8. SharePoint 使用 CMOS 上传、下载、删除文件,新增文件夹
  9. 概率论中几个入门公式
  10. c语言电脑蓝屏代码,电脑蓝屏代码0x0000001a的解决方法