爬虫利器初体验（1）

听说你的爬虫又被封了？（2）

爬取数据不保存，就是耍流氓（3）

爬取两万多租房数据，告诉你广州房租现状（4）

scrapy 也能爬取妹子图？（5）

scrapy遇上ajax，抓取QQ音乐周杰伦专辑与歌词（6）

概述

前言
统计结果
爬虫代码实现
爬虫分析实现
后记

前言

八月份的时候，由于脑洞大开，决定用 python 爬虫爬取了深圳的租房数据，并写了文章《用Python告诉你深圳房租有多高》，文章得到了一致好评和众多转载。由于我本身的朋友圈大多都在广州、深圳，因此，早就有挺多小伙伴叫我分析一下广州的租房价格现状，这不，文章就这样在众多呼声中出炉了。然后，此次爬虫技术也升级了，完善了更多细节。源码值得细细探究。此次分析采集了广州 11 个区，23339 条数据，如下图：

其中后半部分地区数据量偏少，是由于该区房源确实不足。因此，此次调查也并非非常准确，权且当个娱乐项目，供大家观赏。

统计结果

我们且先看统计结果，然后再看技术分析。 广州房源分布：（按区划分） 其中天河占据了大部分房源。但这块地的房租可是不菲啊。次之的是海珠、番禺。

房租单价：（每月每平方米单价 -- 平均数） 即是 1 平方米 1 个月的价格。方块越大，代表价格越高。

可以看出天河、越秀、海珠都越过了 50 大关，分别是 75.042 、64.249、59.621 ，是其他地区的几倍。如果在天河租个 20 平方的房间：

75.042 x 20 = 1500.84

再来个两百的水电、物业：

1500.84 + 200 = 1700.84

我们按正常生活来算的话，每天早餐 10 块，中午 15 块，晚饭 15 块：

1700.84 + 40 x 30 = 2700.84

那么平时的日常生活需要 2700.84 块。隔断时间下个馆子，每个月买些衣服，交通费，谈个女朋友，与女朋友出去逛街，妥妥滴加个 2500

2700.84 + 2500 = 5200.84

给爸妈一人一千：

5200.84 + 2000 = 7200.84

月薪一万还是有点存款的，比深圳好一点，但是可能广州的薪资就没深圳那么高了。

房租单价：（每日每平方米单价 -- 平均数）

即是 1 平方米 1 天的价格。

哈哈，感受一下寸土寸金的感觉。[捂脸]

户型户型主要以 3 室 2 厅与 2 室 2 厅为主。与小伙伴抱团租房是最好的选择了，不然与不认识的人一起合租，可能会发生一系列让你不舒服的事情。字体越大，代表户型数量越多。

租房面积统计 其中 30 - 90 平方米的租房占大多数，如今之计，也只能是几个小伙伴一起租房，抱团取暖了。

租房描述词云 这是爬取的租房描述，其中字体越大，标识出现的次数越多。其中【住家、全套、豪华、齐全】占据了很大的部分，说明配套设施都是挺齐全的。

爬虫技术分析

请求库：scrapy、requests
HTML 解析：BeautifulSoup
词云：wordcloud
数据可视化：pyecharts
数据库：MongoDB
数据库连接：pymongo

爬虫代码实现

跟上一篇文章不一样，这是使用了 scrapy 爬虫框架来爬取数据，各个方面也进行了优化，例如：自动生成各个页面的地址。由于房某下各个区域的首页地址和首页以外的地址的形式是不一样的，但是又一定的规律，所以需要拼接各个部分的地址。首页地址案例：

# 第一页
http://gz.zu.fang.com/house-a073/
复制代码

非首页地址：

# 第二页
http://gz.zu.fang.com/house-a073/i32/
# 第三页
http://gz.zu.fang.com/house-a073/i33/
# 第四页
http://gz.zu.fang.com/house-a073/i34/
复制代码

先解析首页 url

def head_url_callback(self, response):soup = BeautifulSoup(response.body, "html5lib")dl = soup.find_all("dl", attrs={"id": "rentid_D04_01"})  # 获取各地区的 url 地址的 dl 标签my_as = dl[0].find_all("a")  # 获取 dl 标签中所有的 a 标签，for my_a in my_as:if my_a.text == "不限":  # 不限地区的,特殊处理self.headUrlList.append(self.baseUrl)self.allUrlList.append(self.baseUrl)continueif "周边" in my_a.text:  # 清除周边地区的数据continue# print(my_a["href"])# print(my_a.text)self.allUrlList.append(self.baseUrl + my_a["href"])self.headUrlList.append(self.baseUrl + my_a["href"])print(self.allUrlList)url = self.headUrlList.pop(0)yield Request(url, callback=self.all_url_callback, dont_filter=True)
复制代码

再解析非首页 url

这里先获取到各个地区一共有多少页，才能拼接具体的页面地址。

# 再根据头部 url 拼接其他页码的url
def all_url_callback(self, response): # 解析并拼接所有需要爬取的 url 地址soup = BeautifulSoup(response.body, "html5lib")div = soup.find_all("div", attrs={"id": "rentid_D10_01"})  # 获取各地区的 url 地址的 dl 标签span = div[0].find_all("span")  # 获取 dl 标签中所有的 span 标签，span_text = span[0].textfor index in range(int(span_text[1:len(span_text) - 1])):if index == 0:pass# self.allUrlList.append(self.baseUrl + my_a["href"])else:if self.baseUrl == response.url:self.allUrlList.append(response.url + "house/i3" + str(index + 1) + "/")continueself.allUrlList.append(response.url + "i3" + str(index + 1) + "/")if len(self.headUrlList) == 0:url = self.allUrlList.pop(0)yield Request(url, callback=self.parse, dont_filter=True)else:url = self.headUrlList.pop(0)yield Request(url, callback=self.all_url_callback, dont_filter=True)
复制代码

最后解析一个页面的数据

def parse(self, response): # 解析一个页面的数据self.logger.info("==========================")soup = BeautifulSoup(response.body, "html5lib")divs = soup.find_all("dd", attrs={"class": "info rel"})  # 获取需要爬取得 divfor div in divs:ps = div.find_all("p")try:  # 捕获异常，因为页面中有些数据没有被填写完整，或者被插入了一条广告，则会没有相应的标签，所以会报错for index, p in enumerate(ps):  # 从源码中可以看出，每一条 p 标签都有我们想要的信息，故在此遍历 p 标签，text = p.text.strip()print(text)  # 输出看看是否为我们想要的信息roomMsg = ps[1].text.split("|")area = roomMsg[2].strip()[:len(roomMsg[2]) - 1]item = RenthousescrapyItem()item["title"] = ps[0].text.strip()item["rooms"] = roomMsg[1].strip()item["area"] = int(float(area))item["price"] = int(ps[len(ps) - 1].text.strip()[:len(ps[len(ps) - 1].text.strip()) - 3])item["address"] = ps[2].text.strip()item["traffic"] = ps[3].text.strip()if (self.baseUrl+"house/") in response.url: # 对不限区域的地方进行区分item["region"] = "不限"else:item["region"] = ps[2].text.strip()[:2]item["direction"] = roomMsg[3].strip()print(item)yield itemexcept:print("糟糕，出现 exception")continueif len(self.allUrlList) != 0: url = self.allUrlList.pop(0)yield Request(url, callback=self.parse, dont_filter=True)
复制代码

数据分析实现

这里主要通过 pymongo 的一些聚合运算来进行统计，再结合相关的图标库，来进行数据的展示。数据分析：

    # 求一个区的房租单价（平方米/元）def getAvgPrice(self, region):areaPinYin = self.getPinyin(region=region)collection = self.zfdb[areaPinYin]totalPrice = collection.aggregate([{'$group': {'_id': '$region', 'total_price': {'$sum': '$price'}}}])totalArea = collection.aggregate([{'$group': {'_id': '$region', 'total_area': {'$sum': '$area'}}}])totalPrice2 = list(totalPrice)[0]["total_price"]totalArea2 = list(totalArea)[0]["total_area"]return totalPrice2 / totalArea2# 获取各个区 每个月一平方米需要多少钱def getTotalAvgPrice(self):totalAvgPriceList = []totalAvgPriceDirList = []for index, region in enumerate(self.getAreaList()):avgPrice = self.getAvgPrice(region)totalAvgPriceList.append(round(avgPrice, 3))totalAvgPriceDirList.append({"value": round(avgPrice, 3), "name": region + "  " + str(round(avgPrice, 3))})return totalAvgPriceDirList# 获取各个区 每一天一平方米需要多少钱def getTotalAvgPricePerDay(self):totalAvgPriceList = []for index, region in enumerate(self.getAreaList()):avgPrice = self.getAvgPrice(region)totalAvgPriceList.append(round(avgPrice / 30, 3))return (self.getAreaList(), totalAvgPriceList)# 获取各区统计样本数量def getAnalycisNum(self):analycisList = []for index, region in enumerate(self.getAreaList()):collection = self.zfdb[self.pinyinDir[region]]print(region)totalNum = collection.aggregate([{'$group': {'_id': '', 'total_num': {'$sum': 1}}}])totalNum2 = list(totalNum)[0]["total_num"]analycisList.append(totalNum2)return (self.getAreaList(), analycisList)# 获取各个区的房源比重def getAreaWeight(self):result = self.zfdb.rent.aggregate([{'$group': {'_id': '$region', 'weight': {'$sum': 1}}}])areaName = []areaWeight = []for item in result:if item["_id"] in self.getAreaList():areaWeight.append(item["weight"])areaName.append(item["_id"])print(item["_id"])print(item["weight"])# print(type(item))return (areaName, areaWeight)# 获取 title 数据，用于构建词云def getTitle(self):collection = self.zfdb["rent"]queryArgs = {}projectionFields = {'_id': False, 'title': True}  # 用字典指定需要的字段searchRes = collection.find(queryArgs, projection=projectionFields).limit(1000)content = ''for result in searchRes:print(result["title"])content += result["title"]return content# 获取户型数据（例如：3 室 2 厅）def getRooms(self):results = self.zfdb.rent.aggregate([{'$group': {'_id': '$rooms', 'weight': {'$sum': 1}}}])roomList = []weightList = []for result in results:roomList.append(result["_id"])weightList.append(result["weight"])# print(list(result))return (roomList, weightList)# 获取租房面积def getAcreage(self):results0_30 = self.zfdb.rent.aggregate([{'$match': {'area': {'$gt': 0, '$lte': 30}}},{'$group': {'_id': '', 'count': {'$sum': 1}}}])results30_60 = self.zfdb.rent.aggregate([{'$match': {'area': {'$gt': 30, '$lte': 60}}},{'$group': {'_id': '', 'count': {'$sum': 1}}}])results60_90 = self.zfdb.rent.aggregate([{'$match': {'area': {'$gt': 60, '$lte': 90}}},{'$group': {'_id': '', 'count': {'$sum': 1}}}])results90_120 = self.zfdb.rent.aggregate([{'$match': {'area': {'$gt': 90, '$lte': 120}}},{'$group': {'_id': '', 'count': {'$sum': 1}}}])results120_200 = self.zfdb.rent.aggregate([{'$match': {'area': {'$gt': 120, '$lte': 200}}},{'$group': {'_id': '', 'count': {'$sum': 1}}}])results200_300 = self.zfdb.rent.aggregate([{'$match': {'area': {'$gt': 200, '$lte': 300}}},{'$group': {'_id': '', 'count': {'$sum': 1}}}])results300_400 = self.zfdb.rent.aggregate([{'$match': {'area': {'$gt': 300, '$lte': 400}}},{'$group': {'_id': '', 'count': {'$sum': 1}}}])results400_10000 = self.zfdb.rent.aggregate([{'$match': {'area': {'$gt': 300, '$lte': 10000}}},{'$group': {'_id': '', 'count': {'$sum': 1}}}])results0_30_ = list(results0_30)[0]["count"]results30_60_ = list(results30_60)[0]["count"]results60_90_ = list(results60_90)[0]["count"]results90_120_ = list(results90_120)[0]["count"]results120_200_ = list(results120_200)[0]["count"]results200_300_ = list(results200_300)[0]["count"]results300_400_ = list(results300_400)[0]["count"]results400_10000_ = list(results400_10000)[0]["count"]attr = ["0-30平方米", "30-60平方米", "60-90平方米", "90-120平方米", "120-200平方米", "200-300平方米", "300-400平方米", "400+平方米"]value = [results0_30_, results30_60_, results60_90_, results90_120_, results120_200_, results200_300_, results300_400_, results400_10000_]return (attr, value)
复制代码

数据展示：

    # 展示饼图def showPie(self, title, attr, value):from pyecharts import Piepie = Pie(title)pie.add("aa", attr, value, is_label_show=True)pie.render()# 展示矩形树图def showTreeMap(self, title, data):from pyecharts import TreeMapdata = datatreemap = TreeMap(title, width=1200, height=600)treemap.add("深圳", data, is_label_show=True, label_pos='inside', label_text_size=19)treemap.render()# 展示条形图def showLine(self, title, attr, value):from pyecharts import Barbar = Bar(title)bar.add("深圳", attr, value, is_convert=False, is_label_show=True, label_text_size=18, is_random=True,# xaxis_interval=0, xaxis_label_textsize=9,legend_text_size=18, label_text_color=["#000"])bar.render()# 展示词云def showWorkCloud(self, content, image_filename, font_filename, out_filename):d = path.dirname(__name__)# content = open(path.join(d, filename), 'rb').read()# 基于TF-IDF算法的关键字抽取, topK返回频率最高的几项, 默认值为20, withWeight# 为是否返回关键字的权重tags = jieba.analyse.extract_tags(content, topK=100, withWeight=False)text = " ".join(tags)# 需要显示的背景图片img = imread(path.join(d, image_filename))# 指定中文字体, 不然会乱码的wc = WordCloud(font_path=font_filename,background_color='black',# 词云形状，mask=img,# 允许最大词汇max_words=400,# 最大号字体，如果不指定则为图像高度max_font_size=100,# 画布宽度和高度，如果设置了msak则不会生效# width=600,# height=400,margin=2,# 词语水平摆放的频率，默认为0.9.即竖直摆放的频率为0.1prefer_horizontal=0.9)wc.generate(text)img_color = ImageColorGenerator(img)plt.imshow(wc.recolor(color_func=img_color))plt.axis("off")plt.show()wc.to_file(path.join(d, out_filename))# 展示 pyecharts 的词云def showPyechartsWordCloud(self, attr, value):from pyecharts import WordCloudwordcloud = WordCloud(width=1300, height=620)wordcloud.add("", attr, value, word_size_range=[20, 100])wordcloud.render()
复制代码

后记

距离上一篇租房市场的分析已经3、4 个月了，我的技术水平也得到了一定的提高。所以努力编码才是成长的捷径。最后，应对外界条件的变动，我们还是应该提升自己的硬实力，这样才能提升自己的生存能力。

本篇文章首发于公众号「zone7」，关注公众号获取最新推文，后台回复【广州租房】获取源码。

爬取两万多数据，告诉你广州房租价格现状（4）相关推荐

爬取两万多条租房数据，算算在广州你能「活到」第几集？
作者 | zone7 责编 | 仲培艺此前,笔者曾用 Python 爬取 1.7 万条租房数据,并据此撰文揭示了深圳房价飙升背后的生存压力.此番再析广州租房价格现状,在升级爬虫技术之余,也完善了更多 ...
爬取两万多租房数据，告诉你广州房租现状（4）
概述前言统计结果爬虫代码实现爬虫分析实现后记前言建议在看这篇文章之前,请看完这三篇文章,因为本文是依赖于前三篇文章的: 爬虫利器初体验(1) 听说你的爬虫又被封了?(2) 爬取数据不保存 ...
python获取游戏数据_Python 爬取 3 万条游戏评分数据，原来程序员最爱玩的游戏竟然是.........
原标题:Python 爬取 3 万条游戏评分数据,原来程序员最爱玩的游戏竟然是...... 作者 |量化小白H 责编 | 胡巍巍本文爬取了豆瓣游戏网站上所有可见的游戏评分数据进行分析,全文包括以下几 ...
三小时爬取四万份年报
三小时爬取四万份年报本文爬虫的任务提交速度以及下载速度: 年报文本分析如果你有年报文本分析需求,首先你就要获取上市公司年报关于上市公司年报的爬虫已经有很多篇了,如下: <30行代码轻松爬取 ...
python爬取国家男女比例_用python爬取3万多条评论，看韩国人如何评价韩国电影《寄生虫》？...
用python爬取3万多条评论,看韩国人如何评价韩国电影<寄生虫>? 朱小五凹凸数据大家好,我是朱小五今天给大家带来一个关于电影的数据分析文章. 别走啊,这次不是豆瓣,也不是猫眼真 ...
【每日爬虫】：利用线程池爬取2万张装修效果图
文章目录一.前言二.需求三.技术路线四.线程池爬取2万张装修效果图五.其他一.前言 2020-04-08日爬虫练习每日一个爬虫小练习,学习爬虫的记得关注哦! 学习编程就像学习骑自行车一样 ...
java工程师学python爬虫_Python 爬取 11 万 Java 程序员信息竟有这些重大发现！
原标题:Python 爬取 11 万 Java 程序员信息竟有这些重大发现! 一提到程序猿,我们的脑子里就会出现这样的画面: 或者这样的画面: 心头萦绕的字眼是:秃头.猝死.眼镜.黑白 T 恤.钢铁直 ...
python爬斗鱼直播数据图片_Python爬取2000万直播数据——看20万游戏主播能否月入100万...
原标题:Python爬取2000万直播数据--看20万游戏主播能否月入100万她那时候还太年轻,不知道命运赠送的礼物,早已暗中标好了价格. --茨威格社会在发展,时代在进步.伴随着未曾停息的拥护声 ...
Selenium爬取36万条数据告诉你：网易云音乐热评究竟有什么规律？
网易云音乐火不火我不知道,可是评论很火,之前也见过不少的帖子抓取网易云音乐评论,今天咱们也来试试这篇文章主要介绍了python selenium爬取网易云音乐热评,文中通过示例代码介绍的非常详细,对 ...

爬取两万多数据，告诉你广州房租价格现状（4）

概述

前言