来源:zone7

概述

  • 前言

  • 统计结果

  • 爬虫技术分析

  • 爬虫代码实现

  • 爬虫分析实现

  • 后记

前言

最近各大一二线城市的房租都有上涨,究竟整体上涨到什么程度呢?我们也不得而知,于是乎 zone 为了一探究竟,便用 Python 爬取了房某下的深圳的租房数据,以下是本次的样本数据:

样本数据

除去【不限】的数据(因为可能会与后面重叠),总样本数据量为 16971 条,其中后半部分地区数据量偏少,是由于该区房源确实不足。因此,此次调查也并非非常准确,权且当个娱乐项目,供大家观赏。

统计结果

我们且先看统计结果,然后再看技术分析。深圳房源分布:(按区划分)

房源分布

房租单价:(每月每平方米单价 -- 平均数)

房租单价:平方米/月

可以看出福田与南山是独占鳌头,分别是 114.874 与 113.483 ,是其他地区的几倍。如果租个福田 20 平方的房间:

114.874 x 20 = 2297.48

再来个两百的水电、物业:

2297.48 + 200 = 2497.48

我们节俭一点来算的话,每天早餐 10 块,中午 25 块,晚饭 25 块:

2497.48 + 50 x 30 = 3997.48

是的,仅仅是活下来就需要 3997.48 块。

隔断时间下个馆子,每个月买些衣服,交通费,谈个女朋友,与女朋友出去逛街,妥妥滴加个 3500

3997.48 + 3500 = 7497.48

给爸妈一人一千:

7497.48 + 2000 = 9497.48

月薪一万妥妥滴,变成了月光族。

房租单价:(每日每平方米单价 -- 平均数)

即是 1 平方米 1 天的价格。

租房单价:平方米/日

以前在乡下没有寸土寸金的感觉,那么可以到北上广深体验一下,福田区每平方米每天需要 3.829 元。[捂脸]

崩溃

户型

户型

户型

租房面积统计

租房面积统计

租房描述词云

租房描述

爬虫思路

先爬取房某下深圳各个板块的数据,然后存进 MongoDB 数据库,最后再进行数据分析。

各个板块

数据库部分数据:

/* 1 */
{"_id" : ObjectId("5b827d5e8a4c184e63fb1325"),"traffic" : "距沙井电子城公交站约567米。",//交通描述"address" : "宝安-沙井-名豪丽城",//地址"price" : 3100,//价格"area" : 110,//面积"direction" : "朝南\r\n            ",//朝向"title" : "沙井 名豪丽城精装三房 家私齐拎包住 高层朝南随时看房",//标题"rooms" : "3室2厅",//户型"region" : "宝安"//地区
}

爬虫技术分析

  • 请求库:requests

  • HTML 解析:BeautifulSoup

  • 词云:wordcloud

  • 数据可视化:pyecharts

  • 数据库:MongoDB

  • 数据库连接:pymongo

爬虫代码实现

首先右键网页,查看页面源码,找出我们要爬取得部分。

源码

代码实现,由于篇幅原因只展示主要代码:(获取一个页面的数据)

    def getOnePageData(self, pageUrl, reginon="不限"):rent = self.getCollection(self.region)self.session.headers.update({'User-Agent': 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_13_3) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/68.0.3440.84 Safari/537.36'})res = self.session.get(pageUrl)soup = BeautifulSoup(res.text, "html.parser")divs = soup.find_all("dd", attrs={"class": "info rel"})  # 获取需要爬取得 divfor div in divs:ps = div.find_all("p")try:  # 捕获异常,因为页面中有些数据没有被填写完整,或者被插入了一条广告,则会没有相应的标签,所以会报错for index, p in enumerate(ps):  # 从源码中可以看出,每一条 p 标签都有我们想要的信息,故在此遍历 p 标签,text = p.text.strip()print(text)  # 输出看看是否为我们想要的信息print("===================================")# 爬取并存进 MongoDB 数据库roomMsg = ps[1].text.split("|")# rentMsg 这样处理是因为有些信息未填写完整,导致对象报空area = roomMsg[2].strip()[:len(roomMsg[2]) - 2]rentMsg = self.getRentMsg(ps[0].text.strip(),roomMsg[1].strip(),int(float(area)),int(ps[len(ps) - 1].text.strip()[:len(ps[len(ps) - 1].text.strip()) - 3]),ps[2].text.strip(),ps[3].text.strip(),ps[2].text.strip()[:2],roomMsg[3],)rent.insert(rentMsg)except:continue

数据分析实现

数据分析:

    # 求一个区的房租单价(平方米/元)def getAvgPrice(self, region):areaPinYin = self.getPinyin(region=region)collection = self.zfdb[areaPinYin]totalPrice = collection.aggregate([{'$group': {'_id': '$region', 'total_price': {'$sum': '$price'}}}])totalArea = collection.aggregate([{'$group': {'_id': '$region', 'total_area': {'$sum': '$area'}}}])totalPrice2 = list(totalPrice)[0]["total_price"]totalArea2 = list(totalArea)[0]["total_area"]return totalPrice2 / totalArea2# 获取各个区 每个月一平方米需要多少钱def getTotalAvgPrice(self):totalAvgPriceList = []totalAvgPriceDirList = []for index, region in enumerate(self.getAreaList()):avgPrice = self.getAvgPrice(region)totalAvgPriceList.append(round(avgPrice, 3))totalAvgPriceDirList.append({"value": round(avgPrice, 3), "name": region + "  " + str(round(avgPrice, 3))})return totalAvgPriceDirList# 获取各个区 每一天一平方米需要多少钱def getTotalAvgPricePerDay(self):totalAvgPriceList = []for index, region in enumerate(self.getAreaList()):avgPrice = self.getAvgPrice(region)totalAvgPriceList.append(round(avgPrice / 30, 3))return (self.getAreaList(), totalAvgPriceList)# 获取各区统计样本数量def getAnalycisNum(self):analycisList = []for index, region in enumerate(self.getAreaList()):collection = self.zfdb[self.pinyinDir[region]]print(region)totalNum = collection.aggregate([{'$group': {'_id': '', 'total_num': {'$sum': 1}}}])totalNum2 = list(totalNum)[0]["total_num"]analycisList.append(totalNum2)return (self.getAreaList(), analycisList)# 获取各个区的房源比重def getAreaWeight(self):result = self.zfdb.rent.aggregate([{'$group': {'_id': '$region', 'weight': {'$sum': 1}}}])areaName = []areaWeight = []for item in result:if item["_id"] in self.getAreaList():areaWeight.append(item["weight"])areaName.append(item["_id"])print(item["_id"])print(item["weight"])# print(type(item))return (areaName, areaWeight)# 获取 title 数据,用于构建词云def getTitle(self):collection = self.zfdb["rent"]queryArgs = {}projectionFields = {'_id': False, 'title': True}  # 用字典指定需要的字段searchRes = collection.find(queryArgs, projection=projectionFields).limit(1000)content = ''for result in searchRes:print(result["title"])content += result["title"]return content# 获取户型数据(例如:3 室 2 厅)def getRooms(self):results = self.zfdb.rent.aggregate([{'$group': {'_id': '$rooms', 'weight': {'$sum': 1}}}])roomList = []weightList = []for result in results:roomList.append(result["_id"])weightList.append(result["weight"])# print(list(result))return (roomList, weightList)# 获取租房面积def getAcreage(self):results0_30 = self.zfdb.rent.aggregate([{'$match': {'area': {'$gt': 0, '$lte': 30}}},{'$group': {'_id': '', 'count': {'$sum': 1}}}])results30_60 = self.zfdb.rent.aggregate([{'$match': {'area': {'$gt': 30, '$lte': 60}}},{'$group': {'_id': '', 'count': {'$sum': 1}}}])results60_90 = self.zfdb.rent.aggregate([{'$match': {'area': {'$gt': 60, '$lte': 90}}},{'$group': {'_id': '', 'count': {'$sum': 1}}}])results90_120 = self.zfdb.rent.aggregate([{'$match': {'area': {'$gt': 90, '$lte': 120}}},{'$group': {'_id': '', 'count': {'$sum': 1}}}])results120_200 = self.zfdb.rent.aggregate([{'$match': {'area': {'$gt': 120, '$lte': 200}}},{'$group': {'_id': '', 'count': {'$sum': 1}}}])results200_300 = self.zfdb.rent.aggregate([{'$match': {'area': {'$gt': 200, '$lte': 300}}},{'$group': {'_id': '', 'count': {'$sum': 1}}}])results300_400 = self.zfdb.rent.aggregate([{'$match': {'area': {'$gt': 300, '$lte': 400}}},{'$group': {'_id': '', 'count': {'$sum': 1}}}])results400_10000 = self.zfdb.rent.aggregate([{'$match': {'area': {'$gt': 300, '$lte': 10000}}},{'$group': {'_id': '', 'count': {'$sum': 1}}}])results0_30_ = list(results0_30)[0]["count"]results30_60_ = list(results30_60)[0]["count"]results60_90_ = list(results60_90)[0]["count"]results90_120_ = list(results90_120)[0]["count"]results120_200_ = list(results120_200)[0]["count"]results200_300_ = list(results200_300)[0]["count"]results300_400_ = list(results300_400)[0]["count"]results400_10000_ = list(results400_10000)[0]["count"]attr = ["0-30平方米", "30-60平方米", "60-90平方米", "90-120平方米", "120-200平方米", "200-300平方米", "300-400平方米", "400+平方米"]value = [results0_30_, results30_60_, results60_90_, results90_120_, results120_200_, results200_300_, results300_400_, results400_10000_]return (attr, value)

数据展示:

    # 展示饼图def showPie(self, title, attr, value):from pyecharts import Piepie = Pie(title)pie.add("aa", attr, value, is_label_show=True)pie.render()# 展示矩形树图def showTreeMap(self, title, data):from pyecharts import TreeMapdata = datatreemap = TreeMap(title, width=1200, height=600)treemap.add("深圳", data, is_label_show=True, label_pos='inside', label_text_size=19)treemap.render()# 展示条形图def showLine(self, title, attr, value):from pyecharts import Barbar = Bar(title)bar.add("深圳", attr, value, is_convert=False, is_label_show=True, label_text_size=18, is_random=True,# xaxis_interval=0, xaxis_label_textsize=9,legend_text_size=18, label_text_color=["#000"])bar.render()# 展示词云def showWorkCloud(self, content, image_filename, font_filename, out_filename):d = path.dirname(__name__)# content = open(path.join(d, filename), 'rb').read()# 基于TF-IDF算法的关键字抽取, topK返回频率最高的几项, 默认值为20, withWeight# 为是否返回关键字的权重tags = jieba.analyse.extract_tags(content, topK=100, withWeight=False)text = " ".join(tags)# 需要显示的背景图片img = imread(path.join(d, image_filename))# 指定中文字体, 不然会乱码的wc = WordCloud(font_path=font_filename,background_color='black',# 词云形状,mask=img,# 允许最大词汇max_words=400,# 最大号字体,如果不指定则为图像高度max_font_size=100,# 画布宽度和高度,如果设置了msak则不会生效# width=600,# height=400,margin=2,# 词语水平摆放的频率,默认为0.9.即竖直摆放的频率为0.1prefer_horizontal=0.9)wc.generate(text)img_color = ImageColorGenerator(img)plt.imshow(wc.recolor(color_func=img_color))plt.axis("off")plt.show()wc.to_file(path.join(d, out_filename))# 展示 pyecharts 的词云def showPyechartsWordCloud(self, attr, value):from pyecharts import WordCloudwordcloud = WordCloud(width=1300, height=620)wordcloud.add("", attr, value, word_size_range=[20, 100])wordcloud.render()

后记

最近还真是挺多事情发生的,房租的暴涨,其实是资本力量进驻了租房市场。自如、蛋壳这些长租公寓,相互太高房租价格,而且让客户签第三方贷款协议,前期发展可能需要一点钱,但是到后期垄断市场之后,只要住房刚需在,就不会赚不回钱。最后,应对外界条件的变动,我们还是应该提升自己的硬实力,这样才能提升自己的生存能力。


微信交流群 | 助理微信(加学姐微信,拉你进群)

注:加助理进微信科研讨论群


长按关注公众号「视学算法」

用Python分析深圳程序员工资有多高?相关推荐

  1. 基于Python分析深圳程序员工资有多高?

    基于Python分析深圳程序员工资有多高? 概述 前言 统计结果 爬虫技术分析 爬虫代码实现 爬虫分析实现 后记 前言 多图预警.多图预警.多图预警.校招季,毕业也多,跳槽也多.我们的职业发展还是要顺 ...

  2. 计算机编程人员辛苦吗,全国工资下来了,程序员工资为什么这么高?你是不知道多辛苦?...

    全国工资下来了,程序员工资为什么这么高?你是不知道多辛苦? 据说,每一万个人里面,就有14个人在写代码,可以说程序员的群体在全国的数量很多,大概有200多万.程序员的收入比其它职业高是事实,而且不包含 ...

  3. IT行业人均年薪11万,阁瑞钛伦特软件分析程序员工资为什么这么高?

    在当代众多行业中,如果要问什么岗位发展最好.薪资最高? 相信80%的人会说程序员. 和工程师的耀眼形象不同,多数人眼里的程序员更接近于一群情趣干瘪的宅男,而非高智商高收入的精英群体. 客观而言,这些评 ...

  4. 到底还有没有月薪3万以下的程序员?程序员工资真的这么高!

    最近被<月薪5万过得像5千>的"西二旗生活指北"刷屏,文章直指"海淀西北角的群众们不仅能把月入5万活得像5千,他们还能把月入10万.20万.50万也活得像月入 ...

  5. 到底还有没有月薪3万以下的程序员?程序员工资真的这么高?

    最近被<月薪5万过得像5千>的"西二旗生活指北"刷屏,文章直指"海淀西北角的群众们不仅能把月入5万活得像5千,他们还能把月入10万.20万.50万也活得像月入 ...

  6. 程序员为什么老得快_中国程序员工资为什么那么高?老程序员:淘汰速度快,入行成本大...

    在中国,程序员的行业平均工资比一般的传统行业的工资都高,大多数传统行业有自己的职业天花板,不是职位晋升困难,就是工资水平有自己的天花板.而在互联网行业,程序员这个职业这种现象就不是很明显,月薪上万是普 ...

  7. Java程序员工资尤其的高,具体原因是什么呢?

    众多行业中,程序员当然属于高薪职业.无论是国内还是国外,IT行业的程序员.工程师,甚至连码农都要比其他行业的从业者的收入高很多!Java是一种简单的,面向对象的,分布式的,解释型的,健壮安全的,结构中 ...

  8. 都说程序员的工资高,程序员工资真的很高吗?小编今天带你解析一下程序员薪资的真实情况

    如果和国内和其他职业横向比较,是的,局部过高. 全世界和其他程序员(主要是美帝)比,不是,太低.互联网是不是毒瘤?以后优秀的人才不都跑去当码农了?宏观角度讲,互联网确实吸引了很多人才,不是以后,是现在 ...

  9. java程序员_Java程序员工资为什么这么高?

    众多行业中, 程序员当然属于高薪职业.无论是国内还是国外,IT行业的程序员.工程师,甚至连码农都要比其他行业的从业者的收入高很多!尤其是作为IT界的"常青树"Java,原因是什么? ...

最新文章

  1. 如何看待亚马逊 AI 李沐团队大批人员离职?
  2. 病毒导致win2003服务器共享丢失业务中断
  3. python https请求报错:SSLCertVerificationError: [SSL: CERTIFICATE_VERIFY_FAILED] 解决方法
  4. 未对销售组织 XXX 分销渠道 00 语言 ZH 定义
  5. Java 全半角转换
  6. 部署Dotnet Core应用到Kubernetes(一)
  7. Jenkins持久化集成使用
  8. Yii框架怎么寻找对应视图
  9. Codevs 1200 同余方程 2012年NOIP全国联赛提高组
  10. 为什么选择红黑树作为底层实现
  11. 每一篇博文都是与自己的一次对话
  12. BliBli抢楼全攻略
  13. ios WKWebView之视频无法播放
  14. 大禹电子:超声波小型水声通信机可用于水下实时定位系统
  15. 不容忽视的细节——线面积分中的奇点
  16. 行为识别(CVPR2020南京大学腾讯) ~ TEA论文笔记 ~《TEA: Temporal Excitation and Aggregation for Action Recognition》
  17. Zabbix Server trapper命令注入漏洞(CVE-2017-2824)
  18. nandflash原理及硬件操作
  19. 《数据结构》课程设计报告
  20. iCoremail企业邮箱移动办公新突破

热门文章

  1. 程序员千万不要选全栈开发
  2. 知乎 CTO 李大海:创业公司如何拥抱开源
  3. 从Python到AI,这条路好走吗?
  4. 【机器学习】机器学习算法优缺点对比(汇总篇)
  5. 从概念到应用,终于有人把数据挖掘讲明白了
  6. 技术新贵:RPA与NLP技术的结合与应用
  7. Erlang之父给程序员的两点忠告 | 缅怀
  8. 6月Python热文Top10,精选自1000篇文章
  9. Java打造一款SSH客户端,而且已开源
  10. CTO 写的代码,真是绝了