使用BeautifulSoup爬取小猪短租的租房信息
直接上代码
没有添加间隔时间
几页之后就被封了
#!/user/bin/env python
#-*- coding:utf-8 -*-
from bs4 import BeautifulSoup
import requests
import re#函数求详细信息
def get_detail(urls):web_data = requests.get(urls)soup = BeautifulSoup(web_data.text,'lxml')# 获取标题,select获取列表,[0],获取第一个就是我们要的titles = soup.select('div.con_l > div.pho_info > h4')[0].text# 获取地址addr = soup.select('div.pho_info > p > span')[0].text# 获取租金day_cost = soup.select('#pricePart > div.day_l > span')[0].text# 房源图片imgs = soup.select('img[id="curBigImage"]')[0].get('src')# 房东图load_imgs = soup.select('div.member_pic > a > img')[0].get('src')# 房东网民load_names = soup.select('div.w_240 > h6 > a')[0].text# 房东性别load_sexs = soup.select('div.member_pic > div')[0].get('class')[0]#判断房东男女if load_sexs == 'member_ico':load_sexs = '男'else:load_sexs = '女'#title, add, day_costs, img, load_img, load_name, load_sexdatas = [titles,addr,day_cost,imgs,load_imgs,load_names,load_sexs]data = {'title':datas[0],'add':datas[1],'day_cost':datas[2],'img':datas[3],'load_img':datas[4],'load_name':datas[5],'load_sexs':datas[6]}print(data)#爬取1页中的24个链接
def get_link(url):
#url = 'http://sh.xiaozhu.com/search-duanzufang-0/?startDate=2017-11-30&endDate=2017-12-01'web_datas = requests.get(url)soup = BeautifulSoup(web_datas.text,'lxml')
#链接for i in range(23):link = soup.find_all(href=re.compile(r'http://sh.xiaozhu.com/fangzi/.'))[i].get('href')get_detail(link)get_link('http://sh.xiaozhu.com/search-duanzufang-0/?startDate=2017-11-30&endDate=2017-12-01')
for i in range(2,10):get_link('http://sh.xiaozhu.com/search-duanzufang-p%d-0/?startDate=2017-11-30&endDate=2017-12-01'%i)
过程
使用BeautifulSoup爬取小猪短租的租房信息相关推荐
- python3通过Beautif和XPath分别爬取“小猪短租-北京”租房信息,并对比时间效率(附源代码)...
爬虫思路分析: 1. 观察小猪短租(北京)的网页 首页:http://www.xiaozhu.com/?utm_source=baidu&utm_medium=cpc&utm_term ...
- 疫情过去女朋友想去重庆玩,python批量爬取小猪短租重庆民宿信息
疫情过去女朋友想去重庆玩,python批量爬取小猪短租重庆民宿信息 随着时间的流逝,在中国共产党的领导,全国人民的共同努力下,疫情逐渐受到了控制,逐渐好转,复工,开学有望.最近在和女朋友的闲聊当中得知 ...
- Python爬虫入门 | 5 爬取小猪短租租房信息
小猪短租是一个租房网站,上面有很多优质的民宿出租信息,下面我们以成都地区的租房信息为例,来尝试爬取这些数据. 小猪短租(成都)页面:http://cd.xiaozhu.com/ 1.爬取租房标题 ...
- python爬虫--小猪短租的租房信息
python爬虫--小猪短租的租房信息 利用requests获取网页 利用Beautifulsoup4和lxml解析网页 具体代码如下 from bs4 import BeautifulSoup im ...
- 蛋壳公寓信息/信息网爬取/小猪短租/豆瓣/拉钩/人民邮电报/百度电视剧/加载更多-获取字符串中间任意内容
调试 import requests from lxml import etreebase_url = 'https://www.danke.com/room/bj?page=1'headers = ...
- python爬取网上租房信息_Python爬虫入门 | 5 爬取小猪短租租房信息
小猪短租是一个租房网站,上面有很多优质的民宿出租信息,下面我们以成都地区的租房信息为例,来尝试爬取这些数据. 1.爬取租房标题 按照惯例,先来爬下标题试试水,找到标题,复制xpath. 多复制几个房屋 ...
- [python爬虫] BeautifulSoup设置Cookie解决网站拦截并爬取蚂蚁短租
我们在编写Python爬虫时,有时会遇到网站拒绝访问等反爬手段,比如这么我们想爬取蚂蚁短租数据,它则会提示"当前访问疑似黑客攻击,已被网站管理员设置为拦截"提示,如下图所示.此时我 ...
- python爬虫cookie池 与ip绑定_Python爬虫:设置Cookie解决网站拦截并爬取蚂蚁短租
前言 文的文字及图片来源于网络,仅供学习.交流使用,不具有任何商业用途,版权归原作者所有,如有问题请及时联系我们以作处理. 作者: Eastmount PS:如有需要Python学习资料的小伙伴可以加 ...
- Python爬虫:设置Cookie解决网站拦截并爬取蚂蚁短租
我们在编写Python爬虫时,有时会遇到网站拒绝访问等反爬手段,比如这么我们想爬取蚂蚁短租数据,它则会提示"当前访问疑似黑客攻击,已被网站管理员设置为拦截"提示,如下图所示.此时我 ...
最新文章
- oracle学习总结三(bulk collect用法)
- Swift 必备开发库 (高级篇)
- bash: 未预期的符号 `( 附近有语法错误_鲜鲜历史丨石榴:好吃颜值高,还是个文化符号...
- 《数据库原理与应用》(第三版) 第8章 关系数据库理论 基础 习题参考答案
- axios 跨域_当遇到跨域开发时,我们如何处理好前后端配置和请求库封装
- InnoDB存储引擎详解
- ubuntu中一些软件的命令安装及设置
- LINUX下载编译FreeType
- C# WinForm调用UnityWebPlayer Control控件 学习笔记1
- 安装SQL server出现“启用windows功能NetFx3”错误
- linux蚂蚁矿池教程,蚂蚁矿机Z9使用教程
- 纯JS实现简易扫雷小游戏网页项目
- 后渗透攻击阶段 PTES
- Linux中COPYODM的作用,odm操作指南
- Python类型说明符、格式限定符(格式说明符)
- 改变世界前,先改变自己
- com 如何新打开ac
- 2021.07.13 我们是这样崩的
- http的一个在线工具(推荐)
- Realsense T265简单测试
热门文章
- [整理】linux学习笔记(3)
- DTOJ#4170. 「PKUWC2018」猎人杀
- 《每秒处理10万订单乐视集团支付架构》学有所得
- 13星座性格购买iphone6s的搞笑反映
- LTspice使用教程笔记
- 分析计算机网络流量控制论文,线性规划控制论文,关于线性规划的网络流量流向控制技术相关参考文献资料-免费论文范文...
- 计算机网络知识储备(一)
- 英雄联盟英雄信息【python爬虫】
- 比特率 波特率 数据传输速率 区别;波特率与比特率--转换公式
- DevTools 无法加载源映射: 无法加载http://localhost:8080/css/bootstrap.css.map 的内容:HTTP 错误: 状态代码 404,net::ERR_HTT