python 爬取贝壳网小区名称_Python爬虫实战：爬取贝壳网二手房40000条数据

前言

本文的文字及图片来源于网络,仅供学习、交流使用,不具有任何商业用途,版权归原作者所有,如有问题请及时联系我们以作处理

以下文章来源于啤酒就辣条，作者啤酒就辣条

一、网页分析

爬取贝壳网石家庄二手房信息，先打开链接

https://sjz.ke.com/ershoufang/。

不添加筛选条件，发现总共有42817套房子。我们点击第二页，再查看链接变成了https://sjz.ke.com/ershoufang/pg2/。所以，可发现/pg{i}，i就是页码。

所以最多可爬取3000套房产信息，距离上面给出的4万多差的还很远，于是尝试把pg{i}的那个i人为改变一下，点击回车请求一下。

返回房产信息数据都一样。都是第100页的信息，于是乎，得出结论。通过贝壳网web端，查看某一条件下的房产信息，最多可以查看3000套。

所以呢，我们增加一些条件，比如，满五唯一，2室的。请求之~

发现链接变成了https://sjz.ke.com/ershoufang/pg2mw1l2/。mw1l2这个玩意应该筛选条件。看到只有2399套，欧克，咱们就爬它了。

二、撸起袖子写代码

麻雀虽小五脏俱全，本爬虫设计三个部分，爬取，解析，储存。

爬取

爬取利用requests库，比python内置库urllib要好用很多。

importrequestsdefget_a_page(url):

result=requests.get(url)print(result.text)if __name__ == '__main__':for i in range(1, 101):

get_a_page(f'https://sjz.ke.com/ershoufang/pg{i}mw1l2/')

for循环打印返回数据，发现没问题。其实i循环到81就好了，毕竟咱们知道了，只有不到2400套嘛。

解析

解析使用pyquery ，这个库使用起来类似于Jquery。完整API，https://pythonhosted.org/pyquery/api.html。还有一个解析库`bs4，下次再尝试。

在这里插入图片描述

发现读取如图所示ul里面一个div就可以拿到我们想要的数据。

importrequestsfrom pyquery importPyQuery as pqimportjsondefget_a_page(url):

result=requests.get(url)

doc=pq(result.text)

ul= doc('.sellListContent')

divs= ul.children('.clear .info.clear').items()for div indivs:

count+= 1title= div.children('.title a').text()

place= div.children('.address .flood .positionInfo a').text()

msg= div.children('.address .houseInfo').text()

price= div.children('.address .priceInfo .totalPrice span').text()

per_meter= div.children('.address .priceInfo .unitPrice').attr('data-price')

dict={'title': title,'place': place,'msg': msg,'price': price,'per_meter': per_meter

}print(str(count) + ':' + json.dumps(dict, ensure_ascii=False))

代码如上，pyquery 的children方法是查找子标签，find方法是找子孙标签，此处我们只需要找下一代就好。然后通过text找到标签所包含的文本。attr是获取属性内容的，因为那个per_meter从属性中获取比较简单，标签中的内容还包含了“元/平米”。

储存

本次我们直接储存到csv中，一种类似于excel的文件格式。利用的是pandas库。

完整代码如下：

importrequestsfrom pyquery importPyQuery as pqimportjsonimportpandas as pd

columns= ['title', 'msg', 'price', 'per_meter']#爬取某网页

defget_a_page(url):

result=requests.get(url)

doc=pq(result.text)

ul= doc('.sellListContent')

divs= ul.children('.clear .info.clear').items()

count=0

titles=[]

places=[]

msgs=[]

prices=[]

per_meters=[]for div indivs:

count+= 1title= div.children('.title a').text()

place= div.children('.address .flood .positionInfo a').text()

msg= div.children('.address .houseInfo').text()

price= div.children('.address .priceInfo .totalPrice span').text()

per_meter= div.children('.address .priceInfo .unitPrice').attr('data-price')

dict={'title': title,'place': place,'msg': msg,'price': price,'per_meter': per_meter

}

titles.append(title)

places.append(place)

msgs.append(msg)

prices.append(price)

per_meters.append(per_meter)print(str(count) + ':' + json.dumps(dict, ensure_ascii=False))

datas={'title': titles,'place': places,'msg': msgs,'price': prices,'per_meter': per_meters

}

df= pd.DataFrame(data=datas, columns=columns)

df.to_csv('sjz.csv', mode='a', index=False, header=False)if __name__ == '__main__':for i in range(1, 101):

get_a_page(f'https://sjz.ke.com/ershoufang/pg{i}mw1l2/')

多进程

由于get_a_page函数要运行100次，有点小慢，所以利用多进程加快速度，这部分代码，请直接copy。

将主函数改成如下所示

from multiprocessing.pool importPoolif __name__ == '__main__':

pool= Pool(5)

group= ([f'https://sjz.ke.com/ershoufang/pg{x}mw1l2/'for x in range(1, 101)])

pool.map(get_a_page,group)

pool.close()

pool.join()

三、结束

查看下效果：

效果还可以。有人会说，为什么不把msg信息拆分一下，分别储存楼层、几室几厅、建筑年代等等多好。刚开始，我是那么做的，结果发现这个msg数据那几项不是必填项，有的建筑年代、楼层什么的房主不填写，索性就整个拿过来了。

python 爬取贝壳网小区名称_Python爬虫实战：爬取贝壳网二手房40000条数据相关推荐

python爬取boss直聘招聘信息_Python爬虫实战-抓取boss直聘招聘信息
Python Python开发 Python语言 Python爬虫实战-抓取boss直聘招聘信息实战内容:爬取boss直聘的岗位信息,存储在数据库,最后通过可视化展示出来 PS注意:很多人学Pyth ...
python爬虫爬取豆瓣电影信息城市_python爬虫，爬取豆瓣电影信息
hhhhh开心,搞了一整天,查了不少python基础资料,终于完成了第一个最简单的爬虫:爬取了豆瓣top250电影的名字.评分.评分人数以及短评. 代码实现如下:#第一个最简单的爬虫 #爬取了豆瓣to ...
python爬虫爬取图片代码_python爬虫实战爬取天极图片
学习爬虫个人的意见是直接实战效果会很好不要等全学完requests ,正则表达式,BeautifulSoup等再来实际操作.其实很多实战我们并不会用到requests库,BeautifulSoup, ...
python音乐下载器交互界面设计_Python爬虫实战：制作各大音乐平台的聚合的音乐下载器...
本文的文字及图片来源于网络,仅供学习.交流使用,不具有任何商业用途,版权归原作者所有,如有问题请及时联系我们以作处理. 以下文章来源于Python技术,作者派森酱转载地址 https://blog ...
Python爬虫实战：爬取贝壳网二手房40000条数据
前言本文的文字及图片来源于网络,仅供学习.交流使用,不具有任何商业用途,版权归原作者所有,如有问题请及时联系我们以作处理以下文章来源于啤酒就辣条 ,作者啤酒就辣条一.网页分析爬取贝壳网石家庄二 ...
python爬虫爬取歌曲_python爬虫实战:爬取全站小说排行榜
喜欢看小说的骚年们都知道,总是有一些小说让人耳目一新,不管是仙侠还是玄幻,前面更了几十章就成功圈了一大波粉丝,成功攀上飙升榜,热门榜等各种榜,扔几个栗子出来: 新笔趣阁是广大书友最值得收藏的网络小说阅 ...
python爬取腾讯新闻_python爬虫实战――爬取腾讯新闻！
无论我们通过浏览器打开网站.访问网页,还是通过脚本对URL网址进行访问,本质上都是对HTTP服务器的请求,浏览器上所呈现的.控制台所显示的都是HTTP服务器对我们请求的响应. 以打开腾讯新闻官网为例, ...
python爬取饿了么订单_python爬虫：爬取某图外卖数据有这篇文章就够了
本文的文字及图片来源于网络,仅供学习.交流使用,不具有任何商业用途,版权归原作者所有,如有问题请及时联系我们以作处理以下文章来源于腾讯云作者:Python进阶者 ( 想要学习Python?Pyth ...
python爬取历史天气查询_Python爬虫实战-爬取历史天气数据
最近项目需要对合肥市历史天气数据进行爬取,分析了几个天气数据网站,最终选择天气后报网站. 将实现过程遇到的问题以及下来,供以后参考. 步骤分析这里我使用的是Python中的requests库Beau ...

python 爬取贝壳网小区名称_Python爬虫实战：爬取贝壳网二手房40000条数据

python 爬取贝壳网小区名称_Python爬虫实战：爬取贝壳网二手房40000条数据相关推荐

最新文章

热门文章