爬取自如网站杭州市的租房信息

最近看到自如网的整体网页结构比较简洁,因此尝试获取一下杭州市的租房情况,简单做一个分析。

  • 需要获取的内容如图所示

1.获取网页内容

web_url='http://hz.ziroom.com/z/nl/z2.html?p=1'
#对一些需要登录的网站,如果不是从浏览器发出的请求,得不到响应,所以需要将爬虫程序发出的请求伪装成浏览器。
headers ={'User-Agent':'Mozilla/5.0 (Windows NT 6.1; Win64; x64) ''AppleWebKit/537.36 (KHTML, like Gecko) Chrome/63.0.3239.132                                   Safari/537.36'}
req=urlrequest.Request(url=web_url,headers=headers)
web_page=urlrequest.urlopen(req).read()
content=web_page.decode('utf8') #中文解码
#print(content)

2.找到有效信息所在标签

soup=BeautifulSoup(content,'html.parser')
soup_valid=soup.find(id="houseList")
all_divs=soup_valid.find_all('li')
print(all_divs[0].prettify())
  • 获取内容的部分截图

#符合要求的标签数量
len(all_divs)

输出:

18

3.整理标签内容

print('apartment|area|size|dis_to_subway|price')
for div in all_divs:apartment=div.find(class_="t1").get_text().split()[2]area=div.find('h4').get_text()size=div.find(class_="detail").find('span').get_text()dis_to_subway=div.find(class_="detail").find_all('span')[3].get_text()price=div.find(class_="price").get_text().split()[1]print('{},{},{},{},{}'.format(apartment,area,size,dis_to_subway,price))
  • 单页爬取结果打印

爬取杭州市所有租房信息,并存入文件的完整代码如下:

import urllib.request as urlrequest
from bs4 import BeautifulSoup
import timestart=time.clock()
web_url='http://hz.ziroom.com/z/nl/z2.html?p={}'
headers ={'User-Agent':'Mozilla/5.0 (Windows NT 6.1; Win64; x64) ''AppleWebKit/537.36 (KHTML, like Gecko) Chrome/63.0.3239.132 Safari/537.36'}
#把租房信息存入文件中
with open('rent_data.csv','w')as outfile:outfile.write('apartment,area,size,dis_to_subway,price\n')#一共50页for i in range(1,51,1):req=urlrequest.Request(url=web_url.format(i),headers=headers)web_page=urlrequest.urlopen(req).read()content=web_page.decode('utf8')#找到有效信息所在标签soup=BeautifulSoup(content,'html.parser')soup_valid=soup.find(id="houseList")all_divs=soup_valid.find_all('li')for div in all_divs:apartment=div.find(class_="t1").get_text().split()[2]area=div.find('h4').get_text()size=div.find(class_="detail").find('span').get_text()dis_to_subway=div.find(class_="detail").find_all('span')[3].get_text()price=div.find(class_="price").get_text().split()[1]outfile.write('{},{},{},{},{}\n'.format(apartment,area,size,dis_to_subway,price))
end=time.clock()
print('time cost:%.3f s' % (end-start)) #时间消耗

输出:

time cost:37.350 s

转载于:https://www.cnblogs.com/toastavocado/p/8970584.html

爬取自如网站杭州市的租房信息相关推荐

  1. 爬取小猪网的短租房信息

    爬取小猪网的短租房信息的实现 #小猪网爬虫2.0 #功能:实现爬取多页面,并将图片和CSV文件存入桌面文件夹 from PIL import Image import requests from bs ...

  2. 北京房租到底有多高? | 爬取北京海淀区一居室租房信息

    图片来源:花瓣网 文章来源 人工智能与大数据生活 如需转载,请联系原作者授权 最近北京房租成了热门话题,到底北京的房租有多高? 本次实战是爬取北京海淀区一居室的租房信息,共爬取了300套房源信息,看一 ...

  3. python 爬取链家网北京租房信息

    刚学习了python,中途遇到很多问题,查了很多资料,最关键的就是要善于调试,div信息一定不要找错,下面就是我爬取租房信息的代码和运行结果: 链家的房租网站 两个导入的包 1.requests 用来 ...

  4. python爬取链家网实例——scrapy框架爬取-链家网的租房信息

    说明: 本文适合scrapy框架的入门学习. 一.认识scrapy框架 开发python爬虫有很多种方式,从程序的复杂程度的角度来说,可以分为:爬虫项目和爬虫文件. scrapy更适合做爬虫项目,ur ...

  5. python爬取链家租房信息_Python爬取链家网上海市租房信息

    使用Python进行上海市租房信息爬取,通过requests + Beautifulsoup对网页内容进行抓取和数据提取. import requests from bs4 import Beauti ...

  6. python3通过Beautif和XPath分别爬取“小猪短租-北京”租房信息,并对比时间效率(附源代码)...

    爬虫思路分析: 1. 观察小猪短租(北京)的网页 首页:http://www.xiaozhu.com/?utm_source=baidu&utm_medium=cpc&utm_term ...

  7. 爬取评分网站上面的商家信息

    目标 爬取商家内容包括:店铺名,口味,环境,服务,人均消费价格,店铺地址. 爬取网页 # 导入必要的包 import sys import os import re import requests i ...

  8. 使用BeautifulSoup爬取小猪短租的租房信息

    直接上代码 没有添加间隔时间 几页之后就被封了 #!/user/bin/env python #-*- coding:utf-8 -*- from bs4 import BeautifulSoup i ...

  9. 使用Scrapy框架爬取58同城的出租房信息

    from scrapy.exceptions import DropItem from pymongo import MongoClient from scrapy.conf import setti ...

最新文章

  1. java类加载的表现形式
  2. suffix tree
  3. maven私服-详细部署搭建笔记
  4. 龙芯3A5000完成流片 同主频性能追平AMD Zen1
  5. eclipse代码格式化
  6. opencv-python 无法显示图片
  7. jQuery数组处理汇总
  8. C#的winform中MDI 父窗体改变背景色[转]
  9. 倒立摆及其应用//2021-2-23
  10. 产品读书《把时间当朋友》
  11. rsync报错:rsync: chgrp .hejian.txt.D1juHb (in backup) failed: Operation not permitted (1)
  12. AppleScript(0) : 文档与语法
  13. NHibernate体系结构概览
  14. android的json数据解析,Android数据解析-JSON解析
  15. 动态修改webservices地址 地址重载
  16. html event 传递数据,Vue 事件的$event参数=事件的值案例
  17. 华为鸿蒙系统学习笔记1-介绍
  18. DevOps教程:DevOps 工具
  19. 2018android旗舰手机,亓纪的想法 篇五:且用且珍惜:2018年LCD屏幕旗舰手机推荐(上)...
  20. 新论文 | 钢混组合梁多尺度BIM正向设计研究

热门文章

  1. vue 表单验证常见问题
  2. pycharm one dark主题设置及下载
  3. 仿QQ空间的一款APP(一)
  4. 一维矩阵和二维矩阵的前缀和
  5. 中山中专计算机专业分数线,成都市中山计算机职业技术学校2020年招生录取分数线...
  6. python模拟登录网站_Python爬虫之模拟登录wechat
  7. Ajax: A New Approach to Web Applications
  8. 优秀!研二实习生“阿里+字节+拼多多+美团”四杀offer
  9. 电商老大的短腿——阿里巴巴曲折的游戏之路
  10. adobe air 通用设置