最近各大一二线城市的房租都有上涨,究竟整体上涨到什么程度呢?我们也不得而知,于是乎笔者为了一探究竟,便用 Python 爬取了房某下的深圳租房数据。以下是本次的样本数据:

除去【不限】的数据(因为可能会与后面重叠),总数据量为 16971 ,其中后半部分地区数据量偏少,是由于该区房源确实不足。

因此,此次调查也并非非常准确,权且当个娱乐项目,供大家观赏。

统计结果

我们且先看统计结果,然后再看技术分析。深圳房源分布如下,按区划分的话,其中福田与南山的房源分布是最多的。但这两块地的房租十分不菲。

房租单价即 1 平方米 1 个月的价格。方块越大,代表价格越高:

可以看出福田与南山独占鳌头,分别是 114.874 与 113.483 ,是其他地区的几倍。如果以福田 20 平方的房间为例算一下每个月的开销:

福田 20 平方房间的租金:114.874 x 20 = 2297.48再来个两百的水电、物业:2297.48 + 200 = 2497.48我们节俭一点来算的话,每天早餐 10 块,中午 25 块,晚饭 25 块:2497.48 + 60 x 30 = 4297.48是的,仅仅是活下来就需要 3997.48 块。隔断时间下个馆子,每个月买些衣服,交通费,谈个女朋友,与女朋友出去逛街,妥妥滴加个 3500:4297.48 + 3500 = 7697.48给爸妈一人一千:7697.48 + 2000 = 9697.48

如果在乡下没有寸土寸金的感觉,那么可以到北上广深体验一下,福田区每平方米每天需要 3.829 元。

户型方面主要以 3 室 2 厅与 2 室 2 厅为主。与小伙伴抱团租房是最好的选择了,不然与不认识的人一起合租可能会发生一系列让你不舒服的事情。字体越大,代表户型数量越多。

租房面积统计,其中 30 - 90 平方米的租房占大多数——所以,组团租房是最好的选择。

然后是租房描述词云,字体越大,标识出现的次数越多。其中【精装修】占据了很大的部分,说明长租公寓也占领了很大一部分市场。

爬虫思路

先爬取房某下深圳各个板块的数据,然后存进 MongoDB 数据库,最后再进行数据分析。

数据库部分数据:

/* 1 */
{"_id" : ObjectId("5b827d5e8a4c184e63fb1325"),"traffic" : "距沙井电子城公交站约567米。",//交通描述"address" : "宝安-沙井-名豪丽城",//地址"price" : 3100,//价格"area" : 110,//面积"direction" : "朝南\r\n ",//朝向"title" : "沙井 名豪丽城精装三房 家私齐拎包住 高层朝南随时看房",//标题"rooms" : "3室2厅",//户型"region" : "宝安"//地区
}

爬虫技术分析和代码实现

爬虫涉及到的技术工具如下:

  • 请求库:requests
  • HTML 解析:Beautiful Soup
  • 词云:wordcloud
  • 数据可视化:pyecharts
  • 数据库:MongoDB
  • 数据库连接:PyMongo

首先右键网页,查看页面源码,找出我们要爬取的部分。

代码实现,由于篇幅原因只展示主要代码:(获取一个页面的数据)

 def getOnePageData(self, pageUrl, reginon="不限"):rent = self.getCollection(self.region)self.session.headers.update({'User-Agent': 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_13_3) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/68.0.3440.84 Safari/537.36'})res = self.session.get(pageUrl)soup = BeautifulSoup(res.text, "html.parser")divs = soup.find_all("dd", attrs={"class": "info rel"}) # 获取需要爬取得 div
​for div in divs:ps = div.find_all("p")try: # 捕获异常,因为页面中有些数据没有被填写完整,或者被插入了一条广告,则会没有相应的标签,所以会报错for index, p in enumerate(ps): # 从源码中可以看出,每一条 p 标签都有我们想要的信息,故在此遍历 p 标签,text = p.text.strip()print(text) # 输出看看是否为我们想要的信息print("===================================")# 爬取并存进 MongoDB 数据库roomMsg = ps[1].text.split("|")# rentMsg 这样处理是因为有些信息未填写完整,导致对象报空area = roomMsg[2].strip()[:len(roomMsg[2]) - 2]rentMsg = self.getRentMsg(ps[0].text.strip(),roomMsg[1].strip(),int(float(area)),int(ps[len(ps) - 1].text.strip()[:len(ps[len(ps) - 1].text.strip()) - 3]),ps[2].text.strip(),ps[3].text.strip(),ps[2].text.strip()[:2],roomMsg[3],)rent.insert(rentMsg)except:continue

数据分析:

 # 求一个区的房租单价(平方米/元)def getAvgPrice(self, region):areaPinYin = self.getPinyin(region=region)collection = self.zfdb[areaPinYin]totalPrice = collection.aggregate([{'$group': {'_id': '$region', 'total_price': {'$sum': '$price'}}}])totalArea = collection.aggregate([{'$group': {'_id': '$region', 'total_area': {'$sum': '$area'}}}])totalPrice2 = list(totalPrice)[0]["total_price"]totalArea2 = list(totalArea)[0]["total_area"]return totalPrice2 / totalArea2
​# 获取各个区 每个月一平方米需要多少钱def getTotalAvgPrice(self):totalAvgPriceList = []totalAvgPriceDirList = []for index, region in enumerate(self.getAreaList()):avgPrice = self.getAvgPrice(region)totalAvgPriceList.append(round(avgPrice, 3))totalAvgPriceDirList.append({"value": round(avgPrice, 3), "name": region + " " + str(round(avgPrice, 3))})
​return totalAvgPriceDirList
​# 获取各个区 每一天一平方米需要多少钱def getTotalAvgPricePerDay(self):totalAvgPriceList = []for index, region in enumerate(self.getAreaList()):avgPrice = self.getAvgPrice(region)totalAvgPriceList.append(round(avgPrice / 30, 3))return (self.getAreaList(), totalAvgPriceList)
​# 获取各区统计样本数量def getAnalycisNum(self):analycisList = []for index, region in enumerate(self.getAreaList()):collection = self.zfdb[self.pinyinDir[region]]print(region)totalNum = collection.aggregate([{'$group': {'_id': '', 'total_num': {'$sum': 1}}}])totalNum2 = list(totalNum)[0]["total_num"]analycisList.append(totalNum2)return (self.getAreaList(), analycisList)
​# 获取各个区的房源比重def getAreaWeight(self):result = self.zfdb.rent.aggregate([{'$group': {'_id': '$region', 'weight': {'$sum': 1}}}])areaName = []areaWeight = []for item in result:if item["_id"] in self.getAreaList():areaWeight.append(item["weight"])areaName.append(item["_id"])print(item["_id"])print(item["weight"])# print(type(item))return (areaName, areaWeight)
​# 获取 title 数据,用于构建词云def getTitle(self):collection = self.zfdb["rent"]queryArgs = {}projectionFields = {'_id': False, 'title': True} # 用字典指定需要的字段searchRes = collection.find(queryArgs, projection=projectionFields).limit(1000)content = ''for result in searchRes:print(result["title"])content += result["title"]return content
​# 获取户型数据(例如:3 室 2 厅)def getRooms(self):results = self.zfdb.rent.aggregate([{'$group': {'_id': '$rooms', 'weight': {'$sum': 1}}}])roomList = []weightList = []for result in results:roomList.append(result["_id"])weightList.append(result["weight"])# print(list(result))return (roomList, weightList)
​# 获取租房面积def getAcreage(self):results0_30 = self.zfdb.rent.aggregate([{'$match': {'area': {'$gt': 0, '$lte': 30}}},{'$group': {'_id': '', 'count': {'$sum': 1}}}])results30_60 = self.zfdb.rent.aggregate([{'$match': {'area': {'$gt': 30, '$lte': 60}}},{'$group': {'_id': '', 'count': {'$sum': 1}}}])results60_90 = self.zfdb.rent.aggregate([{'$match': {'area': {'$gt': 60, '$lte': 90}}},{'$group': {'_id': '', 'count': {'$sum': 1}}}])results90_120 = self.zfdb.rent.aggregate([{'$match': {'area': {'$gt': 90, '$lte': 120}}},{'$group': {'_id': '', 'count': {'$sum': 1}}}])results120_200 = self.zfdb.rent.aggregate([{'$match': {'area': {'$gt': 120, '$lte': 200}}},{'$group': {'_id': '', 'count': {'$sum': 1}}}])results200_300 = self.zfdb.rent.aggregate([{'$match': {'area': {'$gt': 200, '$lte': 300}}},{'$group': {'_id': '', 'count': {'$sum': 1}}}])results300_400 = self.zfdb.rent.aggregate([{'$match': {'area': {'$gt': 300, '$lte': 400}}},{'$group': {'_id': '', 'count': {'$sum': 1}}}])results400_10000 = self.zfdb.rent.aggregate([{'$match': {'area': {'$gt': 300, '$lte': 10000}}},{'$group': {'_id': '', 'count': {'$sum': 1}}}])results0_30_ = list(results0_30)[0]["count"]results30_60_ = list(results30_60)[0]["count"]results60_90_ = list(results60_90)[0]["count"]results90_120_ = list(results90_120)[0]["count"]results120_200_ = list(results120_200)[0]["count"]results200_300_ = list(results200_300)[0]["count"]results300_400_ = list(results300_400)[0]["count"]results400_10000_ = list(results400_10000)[0]["count"]attr = ["0-30平方米", "30-60平方米", "60-90平方米", "90-120平方米", "120-200平方米", "200-300平方米", "300-400平方米", "400+平方米"]value = [results0_30_, results30_60_, results60_90_, results90_120_, results120_200_, results200_300_, results300_400_, results400_10000_]return (attr, value)

数据展示:

 # 展示饼图def showPie(self, title, attr, value):from pyecharts import Piepie = Pie(title)pie.add("aa", attr, value, is_label_show=True)pie.render()
​# 展示矩形树图def showTreeMap(self, title, data):from pyecharts import TreeMapdata = datatreemap = TreeMap(title, width=1200, height=600)treemap.add("深圳", data, is_label_show=True, label_pos='inside', label_text_size=19)treemap.render()
​# 展示条形图def showLine(self, title, attr, value):from pyecharts import Barbar = Bar(title)bar.add("深圳", attr, value, is_convert=False, is_label_show=True, label_text_size=18, is_random=True,# xaxis_interval=0, xaxis_label_textsize=9,legend_text_size=18, label_text_color=["#000"])bar.render()
​# 展示词云def showWorkCloud(self, content, image_filename, font_filename, out_filename):d = path.dirname(__name__)# content = open(path.join(d, filename), 'rb').read()# 基于TF-IDF算法的关键字抽取, topK返回频率最高的几项, 默认值为20, withWeight# 为是否返回关键字的权重tags = jieba.analyse.extract_tags(content, topK=100, withWeight=False)text = " ".join(tags)# 需要显示的背景图片img = imread(path.join(d, image_filename))# 指定中文字体, 不然会乱码的wc = WordCloud(font_path=font_filename,background_color='black',# 词云形状,mask=img,# 允许最大词汇max_words=400,# 最大号字体,如果不指定则为图像高度max_font_size=100,# 画布宽度和高度,如果设置了msak则不会生效# width=600,# height=400,margin=2,# 词语水平摆放的频率,默认为0.9.即竖直摆放的频率为0.1#Python学习群631441315 ,群里有大量的PDF书籍、教程免费使用!不管是学习到哪个阶段的小伙伴都可以获取到自己需要的教程!   prefer_horizontal=0.9)wc.generate(text)img_color = ImageColorGenerator(img)plt.imshow(wc.recolor(color_func=img_color))plt.axis("off")plt.show()wc.to_file(path.join(d, out_filename))
​# 展示 pyecharts 的词云def showPyechartsWordCloud(self, attr, value):from pyecharts import WordCloudwordcloud = WordCloud(width=1300, height=620)wordcloud.add("", attr, value, word_size_range=[20, 100])wordcloud.render()

不管怎样,最近房租的暴涨真得让人无能为力。应对外界条件的变动,我们还是应该提升自己的硬实力,这样才能提升自己的生存能力。

小牧用Python 爬取数万条房产数据,揭秘一线城市生存压力有多大相关推荐

  1. Python爬取2万条相亲数据!看看中国单身男女都在挑什么

    想必昨天的七夕节,一定是有人欢喜有人忧的一天,朋友圈里的晒照惹恼了我的一个程序员朋友,在昨晚怒爬2万条相亲网站数据,做了一次相亲男女画像! 话不多说,我们今天就以某相亲网站为例子,爬取搜索页面当中所有 ...

  2. Python 爬取 3 万条游戏评分数据,原来程序员最爱玩的游戏竟然是......

    作者 | 量化小白H 责编 | 胡巍巍 Python规划学习路线图,速领取? https://edu.csdn.net/topic/python115?utm_source=csdn_bw 本文爬取了 ...

  3. 这届网友实在是太有才了!用python爬取15万条《我是余欢水》弹幕

    年初时我们用数据解读了几部热度高,但评分差强人意的国产剧,而最近正午阳光带着两部新剧来了,<我是余欢水>和<清平乐>,截止到目前为止,这两部剧在豆瓣分别为7.5分和7.9分,算 ...

  4. Python爬取15万条《我是余欢水》弹幕,看郭京飞如何演活极丧中年人

    CDA数据分析师 出品 他来了他来了,正午阳光带着新剧走来了. 年初时我们用数据解读了几部热度高,但评分差强人意的国产剧,而最近正午阳光带着两部新剧来了,<我是余欢水>和<清平乐&g ...

  5. Python爬取15万条《我是余欢水》弹幕,还原一个丧到极致的中年人生

    ▼ 更多精彩推荐,请关注我们 ▼ 作者:Mika 数据:真达   后期:泽龙  [导语]:今天我们聊聊热干面,Python技术部分可以直接看第四部分.公众号后台,回复关键字"余欢水" ...

  6. 表哥用Python爬取数千条淘宝商品数据后,发现淘宝这些潜规则!

    本文记录了笔者用 Python 爬取淘宝某商品的全过程,并对商品数据进行了挖掘与分析,最终得出结论. 项目内容 本案例选择商品类目:沙发. 数量:共 100 页  4400 个商品. 筛选条件:天猫. ...

  7. Python 爬取 20 万条评论,告诉你周杰伦新歌为啥弄崩 QQ 音乐?

    作者 | 哈哈浩 责编 | 伍杏玲 9 月 16 日晚间,周董在朋友圈发布了最新单曲<说好不哭>. 发布后,真的让一波人哭了,一群想抢鲜听的小伙伴直接泪奔. 因为 QQ 音乐直接被搞崩了! ...

  8. python爬取3万+条评论,解读猫眼评分9.5的《海王》是否值得一看?

    海王 前言 2018年12月7日,本年度最后一部压轴大片<海王>如期上映,目前猫眼评分达到9.5分,靠着1.5亿美金的制作成本,以小博大,目前票房接近9亿,本文爬取了猫眼3w+条评论,多方 ...

  9. python爬虫网页图片显示不出来_用Python爬取20万条网页美女图片,两只眼睛 都看不过来了!...

    前言 最近几天,研究了一下一直很好奇的爬虫算法.这里写一下最近几天的点点心得.下面进入正文: 你可能需要的工作环境: Python 3.6官网下载 本地下载 我们这里以sogou作为爬取的对象. 首先 ...

最新文章

  1. Keil主题皮肤设置,自用推荐
  2. java guava 使用_Java8-Guava实战示例
  3. JAVA_OA(十四)番外:JAVAWEB防止表单重复提交的方法整合(包括集群部署)
  4. hdu oj1094题解
  5. 一文讲透非标品的商品类目设计
  6. 关于Oracle AUTONOMOUS TRANSACTION(自治事务)的介绍
  7. python twisted和flask_浅谈Python Web 框架:Django, Twisted, Tornado, Flask, Cyclone 和 Pyramid...
  8. RegOpenKeyEx返回 2及原因
  9. Cocos2d-X-3.0之后的版本的环境搭建
  10. 如何解决第三方JavaScript引入工程后报错
  11. 日均百亿级日志处理:微博基于 Flink 的实时计算平台建设
  12. linux yast命令,Linux_SUSE Linux系统上双网卡绑定方法,1、使用yast工具配置第一块网 - phpStudy...
  13. 争分夺秒的一晚和赛尔的烂网络
  14. 【STM32】PS2遥控手柄使用和程序移植
  15. C++实现堆排序算法
  16. 2018-10-10工作日报
  17. 【干货】数据集网站汇总!
  18. 云平台的几个概念和典型平台关系对比
  19. HTML+CSS仿写京东登陆页面附代码(web前端期末大作业)
  20. 9.2.3 将警告视为错误

热门文章

  1. VS2010卡顿解决方法
  2. 荣耀手机无法升级鸿蒙,荣耀手机不能升级鸿蒙了?博主给出升级名单
  3. 安卓学习总结-UI开发流程
  4. Graph Convolutional Matrix Completion
  5. KeyShot遇到过的报错
  6. tinymce加载自定义语言包
  7. 计算机网络概念——软考
  8. 高管,被裁!这4条职场潜规则,你越早知道越好
  9. win7、win10的SourcTree克隆不了,一直卡在获取中
  10. java中字符和字节的区别是什么?