用Python分析深圳程序员工资有多高?
来源:zone7
概述
前言
统计结果
爬虫技术分析
爬虫代码实现
爬虫分析实现
后记
前言
最近各大一二线城市的房租都有上涨,究竟整体上涨到什么程度呢?我们也不得而知,于是乎 zone 为了一探究竟,便用 Python 爬取了房某下的深圳的租房数据,以下是本次的样本数据:
除去【不限】的数据(因为可能会与后面重叠),总样本数据量为 16971 条,其中后半部分地区数据量偏少,是由于该区房源确实不足。因此,此次调查也并非非常准确,权且当个娱乐项目,供大家观赏。
统计结果
我们且先看统计结果,然后再看技术分析。深圳房源分布:(按区划分)
房租单价:(每月每平方米单价 -- 平均数)
可以看出福田与南山是独占鳌头,分别是 114.874 与 113.483 ,是其他地区的几倍。如果租个福田 20 平方的房间:
114.874 x 20 = 2297.48
再来个两百的水电、物业:
2297.48 + 200 = 2497.48
我们节俭一点来算的话,每天早餐 10 块,中午 25 块,晚饭 25 块:
2497.48 + 50 x 30 = 3997.48
是的,仅仅是活下来就需要 3997.48 块。
隔断时间下个馆子,每个月买些衣服,交通费,谈个女朋友,与女朋友出去逛街,妥妥滴加个 3500
3997.48 + 3500 = 7497.48
给爸妈一人一千:
7497.48 + 2000 = 9497.48
月薪一万妥妥滴,变成了月光族。
房租单价:(每日每平方米单价 -- 平均数)
即是 1 平方米 1 天的价格。
以前在乡下没有寸土寸金的感觉,那么可以到北上广深体验一下,福田区每平方米每天需要 3.829 元。[捂脸]
户型
租房面积统计
租房描述词云
爬虫思路
先爬取房某下深圳各个板块的数据,然后存进 MongoDB 数据库,最后再进行数据分析。
数据库部分数据:
/* 1 */
{"_id" : ObjectId("5b827d5e8a4c184e63fb1325"),"traffic" : "距沙井电子城公交站约567米。",//交通描述"address" : "宝安-沙井-名豪丽城",//地址"price" : 3100,//价格"area" : 110,//面积"direction" : "朝南\r\n ",//朝向"title" : "沙井 名豪丽城精装三房 家私齐拎包住 高层朝南随时看房",//标题"rooms" : "3室2厅",//户型"region" : "宝安"//地区
}
爬虫技术分析
请求库:requests
HTML 解析:BeautifulSoup
词云:wordcloud
数据可视化:pyecharts
数据库:MongoDB
数据库连接:pymongo
爬虫代码实现
首先右键网页,查看页面源码,找出我们要爬取得部分。
代码实现,由于篇幅原因只展示主要代码:(获取一个页面的数据)
def getOnePageData(self, pageUrl, reginon="不限"):rent = self.getCollection(self.region)self.session.headers.update({'User-Agent': 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_13_3) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/68.0.3440.84 Safari/537.36'})res = self.session.get(pageUrl)soup = BeautifulSoup(res.text, "html.parser")divs = soup.find_all("dd", attrs={"class": "info rel"}) # 获取需要爬取得 divfor div in divs:ps = div.find_all("p")try: # 捕获异常,因为页面中有些数据没有被填写完整,或者被插入了一条广告,则会没有相应的标签,所以会报错for index, p in enumerate(ps): # 从源码中可以看出,每一条 p 标签都有我们想要的信息,故在此遍历 p 标签,text = p.text.strip()print(text) # 输出看看是否为我们想要的信息print("===================================")# 爬取并存进 MongoDB 数据库roomMsg = ps[1].text.split("|")# rentMsg 这样处理是因为有些信息未填写完整,导致对象报空area = roomMsg[2].strip()[:len(roomMsg[2]) - 2]rentMsg = self.getRentMsg(ps[0].text.strip(),roomMsg[1].strip(),int(float(area)),int(ps[len(ps) - 1].text.strip()[:len(ps[len(ps) - 1].text.strip()) - 3]),ps[2].text.strip(),ps[3].text.strip(),ps[2].text.strip()[:2],roomMsg[3],)rent.insert(rentMsg)except:continue
数据分析实现
数据分析:
# 求一个区的房租单价(平方米/元)def getAvgPrice(self, region):areaPinYin = self.getPinyin(region=region)collection = self.zfdb[areaPinYin]totalPrice = collection.aggregate([{'$group': {'_id': '$region', 'total_price': {'$sum': '$price'}}}])totalArea = collection.aggregate([{'$group': {'_id': '$region', 'total_area': {'$sum': '$area'}}}])totalPrice2 = list(totalPrice)[0]["total_price"]totalArea2 = list(totalArea)[0]["total_area"]return totalPrice2 / totalArea2# 获取各个区 每个月一平方米需要多少钱def getTotalAvgPrice(self):totalAvgPriceList = []totalAvgPriceDirList = []for index, region in enumerate(self.getAreaList()):avgPrice = self.getAvgPrice(region)totalAvgPriceList.append(round(avgPrice, 3))totalAvgPriceDirList.append({"value": round(avgPrice, 3), "name": region + " " + str(round(avgPrice, 3))})return totalAvgPriceDirList# 获取各个区 每一天一平方米需要多少钱def getTotalAvgPricePerDay(self):totalAvgPriceList = []for index, region in enumerate(self.getAreaList()):avgPrice = self.getAvgPrice(region)totalAvgPriceList.append(round(avgPrice / 30, 3))return (self.getAreaList(), totalAvgPriceList)# 获取各区统计样本数量def getAnalycisNum(self):analycisList = []for index, region in enumerate(self.getAreaList()):collection = self.zfdb[self.pinyinDir[region]]print(region)totalNum = collection.aggregate([{'$group': {'_id': '', 'total_num': {'$sum': 1}}}])totalNum2 = list(totalNum)[0]["total_num"]analycisList.append(totalNum2)return (self.getAreaList(), analycisList)# 获取各个区的房源比重def getAreaWeight(self):result = self.zfdb.rent.aggregate([{'$group': {'_id': '$region', 'weight': {'$sum': 1}}}])areaName = []areaWeight = []for item in result:if item["_id"] in self.getAreaList():areaWeight.append(item["weight"])areaName.append(item["_id"])print(item["_id"])print(item["weight"])# print(type(item))return (areaName, areaWeight)# 获取 title 数据,用于构建词云def getTitle(self):collection = self.zfdb["rent"]queryArgs = {}projectionFields = {'_id': False, 'title': True} # 用字典指定需要的字段searchRes = collection.find(queryArgs, projection=projectionFields).limit(1000)content = ''for result in searchRes:print(result["title"])content += result["title"]return content# 获取户型数据(例如:3 室 2 厅)def getRooms(self):results = self.zfdb.rent.aggregate([{'$group': {'_id': '$rooms', 'weight': {'$sum': 1}}}])roomList = []weightList = []for result in results:roomList.append(result["_id"])weightList.append(result["weight"])# print(list(result))return (roomList, weightList)# 获取租房面积def getAcreage(self):results0_30 = self.zfdb.rent.aggregate([{'$match': {'area': {'$gt': 0, '$lte': 30}}},{'$group': {'_id': '', 'count': {'$sum': 1}}}])results30_60 = self.zfdb.rent.aggregate([{'$match': {'area': {'$gt': 30, '$lte': 60}}},{'$group': {'_id': '', 'count': {'$sum': 1}}}])results60_90 = self.zfdb.rent.aggregate([{'$match': {'area': {'$gt': 60, '$lte': 90}}},{'$group': {'_id': '', 'count': {'$sum': 1}}}])results90_120 = self.zfdb.rent.aggregate([{'$match': {'area': {'$gt': 90, '$lte': 120}}},{'$group': {'_id': '', 'count': {'$sum': 1}}}])results120_200 = self.zfdb.rent.aggregate([{'$match': {'area': {'$gt': 120, '$lte': 200}}},{'$group': {'_id': '', 'count': {'$sum': 1}}}])results200_300 = self.zfdb.rent.aggregate([{'$match': {'area': {'$gt': 200, '$lte': 300}}},{'$group': {'_id': '', 'count': {'$sum': 1}}}])results300_400 = self.zfdb.rent.aggregate([{'$match': {'area': {'$gt': 300, '$lte': 400}}},{'$group': {'_id': '', 'count': {'$sum': 1}}}])results400_10000 = self.zfdb.rent.aggregate([{'$match': {'area': {'$gt': 300, '$lte': 10000}}},{'$group': {'_id': '', 'count': {'$sum': 1}}}])results0_30_ = list(results0_30)[0]["count"]results30_60_ = list(results30_60)[0]["count"]results60_90_ = list(results60_90)[0]["count"]results90_120_ = list(results90_120)[0]["count"]results120_200_ = list(results120_200)[0]["count"]results200_300_ = list(results200_300)[0]["count"]results300_400_ = list(results300_400)[0]["count"]results400_10000_ = list(results400_10000)[0]["count"]attr = ["0-30平方米", "30-60平方米", "60-90平方米", "90-120平方米", "120-200平方米", "200-300平方米", "300-400平方米", "400+平方米"]value = [results0_30_, results30_60_, results60_90_, results90_120_, results120_200_, results200_300_, results300_400_, results400_10000_]return (attr, value)
数据展示:
# 展示饼图def showPie(self, title, attr, value):from pyecharts import Piepie = Pie(title)pie.add("aa", attr, value, is_label_show=True)pie.render()# 展示矩形树图def showTreeMap(self, title, data):from pyecharts import TreeMapdata = datatreemap = TreeMap(title, width=1200, height=600)treemap.add("深圳", data, is_label_show=True, label_pos='inside', label_text_size=19)treemap.render()# 展示条形图def showLine(self, title, attr, value):from pyecharts import Barbar = Bar(title)bar.add("深圳", attr, value, is_convert=False, is_label_show=True, label_text_size=18, is_random=True,# xaxis_interval=0, xaxis_label_textsize=9,legend_text_size=18, label_text_color=["#000"])bar.render()# 展示词云def showWorkCloud(self, content, image_filename, font_filename, out_filename):d = path.dirname(__name__)# content = open(path.join(d, filename), 'rb').read()# 基于TF-IDF算法的关键字抽取, topK返回频率最高的几项, 默认值为20, withWeight# 为是否返回关键字的权重tags = jieba.analyse.extract_tags(content, topK=100, withWeight=False)text = " ".join(tags)# 需要显示的背景图片img = imread(path.join(d, image_filename))# 指定中文字体, 不然会乱码的wc = WordCloud(font_path=font_filename,background_color='black',# 词云形状,mask=img,# 允许最大词汇max_words=400,# 最大号字体,如果不指定则为图像高度max_font_size=100,# 画布宽度和高度,如果设置了msak则不会生效# width=600,# height=400,margin=2,# 词语水平摆放的频率,默认为0.9.即竖直摆放的频率为0.1prefer_horizontal=0.9)wc.generate(text)img_color = ImageColorGenerator(img)plt.imshow(wc.recolor(color_func=img_color))plt.axis("off")plt.show()wc.to_file(path.join(d, out_filename))# 展示 pyecharts 的词云def showPyechartsWordCloud(self, attr, value):from pyecharts import WordCloudwordcloud = WordCloud(width=1300, height=620)wordcloud.add("", attr, value, word_size_range=[20, 100])wordcloud.render()
后记
最近还真是挺多事情发生的,房租的暴涨,其实是资本力量进驻了租房市场。自如、蛋壳这些长租公寓,相互太高房租价格,而且让客户签第三方贷款协议,前期发展可能需要一点钱,但是到后期垄断市场之后,只要住房刚需在,就不会赚不回钱。最后,应对外界条件的变动,我们还是应该提升自己的硬实力,这样才能提升自己的生存能力。
微信交流群 | 助理微信(加学姐微信,拉你进群)
注:加助理进微信科研讨论群
长按关注公众号「视学算法」
用Python分析深圳程序员工资有多高?相关推荐
- 基于Python分析深圳程序员工资有多高?
基于Python分析深圳程序员工资有多高? 概述 前言 统计结果 爬虫技术分析 爬虫代码实现 爬虫分析实现 后记 前言 多图预警.多图预警.多图预警.校招季,毕业也多,跳槽也多.我们的职业发展还是要顺 ...
- 计算机编程人员辛苦吗,全国工资下来了,程序员工资为什么这么高?你是不知道多辛苦?...
全国工资下来了,程序员工资为什么这么高?你是不知道多辛苦? 据说,每一万个人里面,就有14个人在写代码,可以说程序员的群体在全国的数量很多,大概有200多万.程序员的收入比其它职业高是事实,而且不包含 ...
- IT行业人均年薪11万,阁瑞钛伦特软件分析程序员工资为什么这么高?
在当代众多行业中,如果要问什么岗位发展最好.薪资最高? 相信80%的人会说程序员. 和工程师的耀眼形象不同,多数人眼里的程序员更接近于一群情趣干瘪的宅男,而非高智商高收入的精英群体. 客观而言,这些评 ...
- 到底还有没有月薪3万以下的程序员?程序员工资真的这么高!
最近被<月薪5万过得像5千>的"西二旗生活指北"刷屏,文章直指"海淀西北角的群众们不仅能把月入5万活得像5千,他们还能把月入10万.20万.50万也活得像月入 ...
- 到底还有没有月薪3万以下的程序员?程序员工资真的这么高?
最近被<月薪5万过得像5千>的"西二旗生活指北"刷屏,文章直指"海淀西北角的群众们不仅能把月入5万活得像5千,他们还能把月入10万.20万.50万也活得像月入 ...
- 程序员为什么老得快_中国程序员工资为什么那么高?老程序员:淘汰速度快,入行成本大...
在中国,程序员的行业平均工资比一般的传统行业的工资都高,大多数传统行业有自己的职业天花板,不是职位晋升困难,就是工资水平有自己的天花板.而在互联网行业,程序员这个职业这种现象就不是很明显,月薪上万是普 ...
- Java程序员工资尤其的高,具体原因是什么呢?
众多行业中,程序员当然属于高薪职业.无论是国内还是国外,IT行业的程序员.工程师,甚至连码农都要比其他行业的从业者的收入高很多!Java是一种简单的,面向对象的,分布式的,解释型的,健壮安全的,结构中 ...
- 都说程序员的工资高,程序员工资真的很高吗?小编今天带你解析一下程序员薪资的真实情况
如果和国内和其他职业横向比较,是的,局部过高. 全世界和其他程序员(主要是美帝)比,不是,太低.互联网是不是毒瘤?以后优秀的人才不都跑去当码农了?宏观角度讲,互联网确实吸引了很多人才,不是以后,是现在 ...
- java程序员_Java程序员工资为什么这么高?
众多行业中, 程序员当然属于高薪职业.无论是国内还是国外,IT行业的程序员.工程师,甚至连码农都要比其他行业的从业者的收入高很多!尤其是作为IT界的"常青树"Java,原因是什么? ...
最新文章
- 如何看待亚马逊 AI 李沐团队大批人员离职?
- 病毒导致win2003服务器共享丢失业务中断
- python https请求报错:SSLCertVerificationError: [SSL: CERTIFICATE_VERIFY_FAILED] 解决方法
- 未对销售组织 XXX 分销渠道 00 语言 ZH 定义
- Java 全半角转换
- 部署Dotnet Core应用到Kubernetes(一)
- Jenkins持久化集成使用
- Yii框架怎么寻找对应视图
- Codevs 1200 同余方程 2012年NOIP全国联赛提高组
- 为什么选择红黑树作为底层实现
- 每一篇博文都是与自己的一次对话
- BliBli抢楼全攻略
- ios WKWebView之视频无法播放
- 大禹电子:超声波小型水声通信机可用于水下实时定位系统
- 不容忽视的细节——线面积分中的奇点
- 行为识别(CVPR2020南京大学腾讯) ~ TEA论文笔记 ~《TEA: Temporal Excitation and Aggregation for Action Recognition》
- Zabbix Server trapper命令注入漏洞(CVE-2017-2824)
- nandflash原理及硬件操作
- 《数据结构》课程设计报告
- iCoremail企业邮箱移动办公新突破