python爬虫--小猪短租的租房信息

利用requests获取网页
利用Beautifulsoup4和lxml解析网页

具体代码如下

from bs4 import BeautifulSoup
import requests

url = 'http://bj.xiaozhu.com/fangzi/1508951935.html'
web_data = requests.get(url)
soup = BeautifulSoup(web_data.text, 'lxml')

title = soup.select('div.pho_info > h4 ')[0].text
address = soup.select('div.pho_info > p ')[0].get('title')
price = soup.select('div.day_l > span')[0].text
first_pic = soup.select('#curBigImage')[0].get('src')
landlord_pic = soup.select('div.member_pic > a > img')[0].get('src')
landlord_name = soup.select('div.w_240 > h6 > a')[0].text
if soup.select('span[class="member_girl_ico"]'):
landlord_gender = 'female'
else:
landlord_gender = 'male'

data = {
'title': title,
'address': address,
'price': price,
'first_pic': first_pic,
'landlord_pic': landlord_pic,
'landlord_name': landlord_name,
'landlord_gender': landlord_gender
}
print(data)

转载于:https://www.cnblogs.com/november1943/p/5230924.html

python爬虫--小猪短租的租房信息相关推荐

  1. python3通过Beautif和XPath分别爬取“小猪短租-北京”租房信息,并对比时间效率(附源代码)...

    爬虫思路分析: 1. 观察小猪短租(北京)的网页 首页:http://www.xiaozhu.com/?utm_source=baidu&utm_medium=cpc&utm_term ...

  2. 使用BeautifulSoup爬取小猪短租的租房信息

    直接上代码 没有添加间隔时间 几页之后就被封了 #!/user/bin/env python #-*- coding:utf-8 -*- from bs4 import BeautifulSoup i ...

  3. python爬虫--爬取链家租房信息

    python 爬虫-链家租房信息 爬虫,其实就是爬取web页面上的信息. 链家租房信息页面如下: https://gz.lianjia.com/zufang/ ## python库 Python库 1 ...

  4. python爬虫爬取58同城租房信息(使用动态IP)输出Excel文件

    python爬虫爬取58同城信息(使用动态IP) 新手,为了做一个数据分析,搞了几天,终于搞出来了,大家可以给点意见啊. # coding=utf-8 import sys import csv im ...

  5. python 爬虫抓取19楼租房信息

    查看19lou.com的Cookie chrome中打开19lou.com,按F12可以打开开发者工具查看 不获取Cookie会导致爬取网站时重定向而抓不到内容 定义headers headers = ...

  6. 险些“B轮死”的小猪短租,如何穿越了融资生死线

    文/小饭桌新媒体记者 何斌 编辑/郭文俊 ►2013年的最后一天,陈驰突然接到投资人的电话:"对不起,这个项目不投了". 接近两年之后,作为小猪短租创始人他仍然记得那个晚上--被他 ...

  7. python爬取网上租房信息_Python爬虫入门 | 5 爬取小猪短租租房信息

    小猪短租是一个租房网站,上面有很多优质的民宿出租信息,下面我们以成都地区的租房信息为例,来尝试爬取这些数据. 1.爬取租房标题 按照惯例,先来爬下标题试试水,找到标题,复制xpath. 多复制几个房屋 ...

  8. Python爬虫入门 | 5 爬取小猪短租租房信息

    小猪短租是一个租房网站,上面有很多优质的民宿出租信息,下面我们以成都地区的租房信息为例,来尝试爬取这些数据. 小猪短租(成都)页面:http://cd.xiaozhu.com/   1.爬取租房标题 ...

  9. Python爬虫||BeautifulSoup4库-以小猪短租为例

    由于上次的文章被同学吐槽了,正则表达式过于麻烦,那就用BeautifulSoup库吧,比正则表达式简单太多了!只需要简单的几条语句,即可完成网页中某个元素的提取.他是python的一个HTML或者XM ...

最新文章

  1. epub格式电子书剖析之三:NCX文件构成
  2. Apache的Rewrite规则详细介绍
  3. linux服务器安全文档,CentOS Linux服务器安全设置
  4. 闲鱼研发框架应用和探索
  5. POJ - 3714 Raid(平面最近点对模板题,几何)
  6. 初识jQuery(适合初学者哟.........)
  7. 【Quartz】Spring3.2.9 + Quqrtz2.2.1 实现定时实例
  8. 在嵌入式公司和在互联网公司写软件,有什么区别?
  9. Pandas 文本数据方法 contains()
  10. 第6章 见缝插圆(《C和C++游戏趣味编程》配套教学视频)
  11. 两种不同编码规则的查询
  12. Android RecyclerView之PagerSnapHelper原理解析(二)
  13. 小乌龟git的安装、配置(TortoiseGit安装、配置)
  14. 《21天学通Java(第6版)》—— 导读
  15. 计算机毕业设计Java幼儿园管理系统(源码+系统+mysql数据库+Lw文档)
  16. 汽车之家各种车型参数爬虫
  17. bugzilla perl mysql apache windows,windows下配置bugzilla
  18. 2018年Google开发者大会
  19. 海思开发板实用技巧集
  20. Nexperia |超低电容 ESD 保护二极管保护汽车数据接口基础半导体器件

热门文章

  1. 论文阅读:Pixel-level Extrinsic Self Calibration of High Resolution LiDAR and Camera
  2. 【lnmp】require(): open_basedir restriction in effect.【百度不是万能的,关键时刻还得靠自己】
  3. 杨可桢机械设计基础第6版笔记和课后答案
  4. Linux-终端命令行
  5. 简易电子邮件收信的原理以及实现
  6. 基于Web的IM简介
  7. msata sata和m.2的区别,有图
  8. 如何玩转SHOPEE关键字广告(一)-跨境知道
  9. 妙用Java 8中的 Function接口,消灭if...else(非常新颖的写法)
  10. EasyPoi的使用(4)