前言:
通过上次的TripAdvisor爬虫实战,我们学会了如何使用requests发送一个网页请求,并使用BeautifulSoup来解析页面,从中提取出我们的目标内容,并将其存入文档中。同时我们也学会了如何分析页面,并提取出关键数据。
下面我们将进一步学习,并爬去小猪短租的详情页面,提取数据。
Just do it~~!
目标站点分析
目标URL:http://bj.xiaozhu.com/search-duanzufang-p1-0/
明确内容:

在点击URL后我们进入了列表页面,在列表页面没有我们想要的信息,我们需要进入详情页面,看有没有我们所需要的数据。

在详情页面中,我们找的了我们需要的数据:如title,address,price,host_name,host_gender等(红色方框中的内容),当然我们也可以提取详情页中的图片,居住人数等,这就当个小练习,交给大家实现吧~
下面我们需要遍历所有的列表页面,提取所有的详情页面URL,再提取详情页中的目标数据。
业务逻辑:
1.查找规律,遍历所有的列表页,再下翻几页后,我们发现***pX***(其中X为1,2,3,4…)

2.提取列表页中的详情页URL

# 解析列表页面,并提取详情页的URLdef parse_html(self, html):soup = BeautifulSoup(html, 'lxml')lis = soup.select("div#page_list > ul > li")for li in lis:# 提取详情页URLpage_url = li.select("a")[0].attrs['href']

3.提取详情页的数据

# 解析详情页,并提取数据def parse_page(self, html):item_list = []soup = BeautifulSoup(html, 'lxml')temp_title = soup.select('div.pho_info > h4')[0].get_text()title = temp_title.replace('\n', '')address = soup.select("div.pho_info > p")[0].get('title')price = soup.select("div.day_l > span")[0].get_text()host_name = soup.select("a.lorder_name")[0].get_text()host_gender = soup.select("div.member_pic > div")[0].get('class')[0]

4.保存数据,并放入文档中

# 保存数据def save_item(self, item_list):with open('XiaoZhu.txt', 'a+', encoding='utf-8') as f:for item in item_list:json.dump(item, f, ensure_ascii=False, indent=2)f.close()print("Save success!")

结果展示

好了,本次讲解,到这里就差不多该结束啦~感兴趣的同学,可以动手试试。
源码地址:https://github.com/NO1117/XiaoZhu_Spider
Python交流群:942913325 欢迎大家一起交流学习

Python爬虫实战--小猪短租爬虫相关推荐

  1. Python爬虫||BeautifulSoup4库-以小猪短租为例

    由于上次的文章被同学吐槽了,正则表达式过于麻烦,那就用BeautifulSoup库吧,比正则表达式简单太多了!只需要简单的几条语句,即可完成网页中某个元素的提取.他是python的一个HTML或者XM ...

  2. python爬取网上租房信息_Python爬虫入门 | 5 爬取小猪短租租房信息

    小猪短租是一个租房网站,上面有很多优质的民宿出租信息,下面我们以成都地区的租房信息为例,来尝试爬取这些数据. 1.爬取租房标题 按照惯例,先来爬下标题试试水,找到标题,复制xpath. 多复制几个房屋 ...

  3. Python爬虫入门 | 5 爬取小猪短租租房信息

    小猪短租是一个租房网站,上面有很多优质的民宿出租信息,下面我们以成都地区的租房信息为例,来尝试爬取这些数据. 小猪短租(成都)页面:http://cd.xiaozhu.com/   1.爬取租房标题 ...

  4. python爬虫--小猪短租的租房信息

    python爬虫--小猪短租的租房信息 利用requests获取网页 利用Beautifulsoup4和lxml解析网页 具体代码如下 from bs4 import BeautifulSoup im ...

  5. Python爬虫实战 [成都短租房项目]

    Python爬虫实战[成都短租房项目] 一.项目需求 二.需求分析 三.爬虫部分 3.1 获取原始报文 3.2 数据清洗(re+string方法) 3.3 数据清洗(BeautifulSoup方法) ...

  6. 疫情过去女朋友想去重庆玩,python批量爬取小猪短租重庆民宿信息

    疫情过去女朋友想去重庆玩,python批量爬取小猪短租重庆民宿信息 随着时间的流逝,在中国共产党的领导,全国人民的共同努力下,疫情逐渐受到了控制,逐渐好转,复工,开学有望.最近在和女朋友的闲聊当中得知 ...

  7. Python开发实战案例之网络爬虫(附源码)-张子良-专题视频课程

    Python开发实战案例之网络爬虫(附源码)-35人已学习 课程介绍         课程特色: 特色1:案例驱动-围绕两大完整的Python网络爬虫实战开发案例:IT电子书下载网络爬虫和股票交易数据 ...

  8. 险些“B轮死”的小猪短租,如何穿越了融资生死线

    文/小饭桌新媒体记者 何斌 编辑/郭文俊 ►2013年的最后一天,陈驰突然接到投资人的电话:"对不起,这个项目不投了". 接近两年之后,作为小猪短租创始人他仍然记得那个晚上--被他 ...

  9. python3通过Beautif和XPath分别爬取“小猪短租-北京”租房信息,并对比时间效率(附源代码)...

    爬虫思路分析: 1. 观察小猪短租(北京)的网页 首页:http://www.xiaozhu.com/?utm_source=baidu&utm_medium=cpc&utm_term ...

  10. ruoyi是怎么点击菜单跳转页面的_小猪短租怎么发布房源

    小猪短租是一款租房软件,那么小猪短租怎么发布房源,今天就让PChouse来为大家讲解一下. 1.下载小猪短租APP,进入首页,在最下面菜单项选择[订单]或者[消息],就会弹出登录界面. 2.点击登录, ...

最新文章

  1. fastjson这么快,为啥老外还是热衷 jackson?
  2. Centos 7和Centos 6的防火墙
  3. Python定义函数的三种方式
  4. HTTP访问一个网站的过程详解
  5. java:数字转string 报空指针_超干货详解:kotlin(4) java转kotlin潜规则
  6. 初识函数式编程(Functional Programming,FP)
  7. 知乎回应月饼问题:忽略了麦芽糖或致部分人不耐受,召回所有月饼
  8. 重磅!Google ARCore 和京东 AR 联合举办消费应用创新大赛
  9. C语言自学之路十二(详解C语言操作符二)
  10. Unity游戏开发背景知识
  11. OSChina 周四乱弹 —— 月中发工资还没到家……
  12. 女性内分泌失调要小心
  13. Idempotent Consumer
  14. 【Vue 基础知识】keep-alive是什么?怎么用?
  15. jQuery 中ajax回调函数获得的数据格式问题
  16. 第 4-8 课:Spring Boot 集成 ElasticSearch
  17. 雷电2接口_Intel发布雷电4接口,相比之前的雷电3,雷电4都改进了什么?
  18. excel 公式 单引号 concat_2019会计必备:934套带公式的实用Excel模板!【收藏】
  19. Network 【HTTPS请求/AFN】
  20. 漫画 |《程序员十二时辰》,居然是这样的!内容过于真实 ...

热门文章

  1. 人脸识别 -- 活体检测(张嘴摇头识别)
  2. 人脸识别、活体检测、人脸识别面临的挑战
  3. 内存容错技术ECCChipkill保护镜像
  4. 一篇很感人的DOTA小说--我本近卫
  5. TortoiseGit安装和使用的图文教程
  6. J. 青出于蓝胜于蓝(dfs序+树状数组)
  7. 在开发版上用C语言写实心圆,MFC利用CPen与CBrush绘制实心圆
  8. 南洋生活,聊聊新加坡的房地产
  9. 百度搜索查找关键词技巧-信息收集能力
  10. ps怎么做油漆喷溅画效果