python爬虫–爬取小猪网的租房信息

Pycharm简介
PyCharm是一种Python IDE,带有一整套可以帮助用户在使用Python语言开发时提高其效率的工具,比如调试、语法高亮、Project管理、代码跳转、智能提示、自动完成、单元测试、版本控制。此外,该IDE提供了一些高级功能,以用于支持Django框架下的专业Web开发。
算法介绍
(1)复制标题的xpath信息,写出标题的通用 xpath 信息;
(2)打开指定路径文档;
(3)访问指定目标网址,以GET方式获取网页数据;
(4)加上睡眠;
(5)将title值写入文件。
具体实现

import requests        #导入requests包
import time
from lxml import  etree
# w:只写的模式,如果没有文件将自动创建
with open('/Users/lxdn/Desktop/lwl.txt','w',encoding='utf-8') as f:for a in range(1,6):url = 'http://cd.xiaozhu.com/'.format(a)data = requests.get(url).texts=etree.HTML(data)file=s.xpath('//*[@id="page_list"]/ul/li')time.sleep(5)for div in file:title=div.xpath("./div[2]/div/a/span/text()")[0]# 将 title的值写入文件f.write("{}\n".format(title))print(title)

实验结果
(1)目标网页:小猪租房网

(2)代码执行
(3)导出文档
心得体会
(1)通过本次实训,我了解了网络爬虫(又被称为网页蜘蛛,网络机器人,在FOAF社区中间,更经常的称为网页追逐者),是一种按照一定的规则,自动的抓取万维网信息的程序或者脚本。另外一些不常使用的名字还有蚂蚁,自动索引,模拟程序或者蠕虫。基于网页之间的链接,通过已知的网页或数据,来对与其有直接或间接链接关系的对象(可以是网页或网站等)作出评价的算法。又分为网页粒度、网站粒度和网页块粒度这三种。
(2)在编程过程中,我遇到许多问题:空间有限,在receive时就提取去超链接;动态使用缓冲,设置缓存大小,当缓存满时候,要写入文件,并清空缓存;用第三方库是好,但是自己永远不知道其中具体细节,开发的时候尽量自己总结摸索算法,有助于自己综合能力的提高。总之,在解决问题的过程中进一步熟悉了程序开发流程,提高了自己的编程水平和解决问题的能力。

python爬虫--爬取小猪网的租房信息相关推荐

  1. python爬虫爬取当当网的商品信息

    python爬虫爬取当当网的商品信息 一.环境搭建 二.简介 三.当当网网页分析 1.分析网页的url规律 2.解析网页html页面 书籍商品html页面解析 其他商品html页面解析 四.代码实现 ...

  2. Python爬虫入门 | 5 爬取小猪短租租房信息

    小猪短租是一个租房网站,上面有很多优质的民宿出租信息,下面我们以成都地区的租房信息为例,来尝试爬取这些数据. 小猪短租(成都)页面:http://cd.xiaozhu.com/   1.爬取租房标题 ...

  3. 在当当买了python怎么下载源代码-python爬虫爬取当当网

    [实例简介]python爬虫爬取当当网 [实例截图] [核心代码] ''' Function: 当当网图书爬虫 Author: Charles 微信公众号: Charles的皮卡丘 ''' impor ...

  4. python爬虫爬取知网

    python爬虫爬取知网 话不多说,直接上代码! import requests import re import time import xlrd from xlrd import open_wor ...

  5. [python爬虫]爬取天气网全国所有县市的天气数据

    [python爬虫]爬取天气网全国所有县市的天气数据 访问URL 解析数据 保存数据 所要用到的库 import requests from lxml import etree import xlwt ...

  6. python爬虫爬取大众点评店铺简介信息

    python爬虫爬取大众点评店铺简介信息 写作目的: 爬取目标 大众点评的保护机制 应对方法 还存在的问题 写作目的: 今天帮朋友一个忙,要爬取一些大众点评上的数据.结果发现大众点评的防爬机制还挺多的 ...

  7. python爬取网上租房信息_Python爬虫入门 | 5 爬取小猪短租租房信息

    小猪短租是一个租房网站,上面有很多优质的民宿出租信息,下面我们以成都地区的租房信息为例,来尝试爬取这些数据. 1.爬取租房标题 按照惯例,先来爬下标题试试水,找到标题,复制xpath. 多复制几个房屋 ...

  8. Python爬虫爬取东方财富网的股票信息

    简单的Python爬虫应用 目标:爬取东方财富网的股票信息 1.先找到要爬取的网页 2.第二步开始爬取信息 2.1 通过requests获取网页信息 2.2再通过BeautifulSoup解析: 2. ...

  9. python爬虫-爬取当当网书籍信息存到Excel中

    文章目录 一.任务 二.分析 (一).单页面的信息分析 源代码分析 目标信息定位与分析 代码设计 (二).所有目标页面链接分析 目标链接分析 代码设计 三.注意要点 四.完整代码 五.参考 一.任务 ...

  10. python爬虫爬取慕课网中的图片

    我们简单地爬取慕课网中免费课程下的第一页的图片,如想爬取多页图片,可以添加for循环自行实现 python版本:3.6.5 爬取网址:http://www.imooc.com/course/list ...

最新文章

  1. classlist使用方法_如何通过使用HTML5的classList API在没有jQuery的情况下操作类
  2. AppManager
  3. 机器学习之数学基础(四)~Lasso Regression回归, L1、L2 Regularization正则化, 回归问题中的损失函数
  4. com.fasterxml.jackson.databind.JsonMappingException: Multiple back-reference properties with name ‘d
  5. python中安装opencv一直说不是内部或外部文件_Window系统下Python如何安装OpenCV库
  6. 修改dts后重编译_「正点原子FPGA连载」第二十章另一种方式编译ZYNQ镜像
  7. 关于hexo更新到GitHub后博客内容未变问题
  8. dcs 管理计算机的功能,计算机控制系统 第三章 集散控制系统(DCS).doc
  9. 绘制隐藏层的激活值的分布[直方图]
  10. 谷歌紧急修复已遭在野利用的0day
  11. 如何保证集合是线程安全的? ConcurrentHashMap如何实现高效地线程安全?(转)
  12. mongoDB导出数据库所有集合内容到json文件
  13. 一文了解数据库索引:哈希、B-Tree 与 LSM
  14. Centos 部署OpenVP* 证书+密码认证
  15. java 转换字符编码_Java 正确的做字符串编码转换
  16. 【Web技术】969- 如何实现高性能的在线 PDF 预览
  17. 【翻译】PSV初音Miku Project DIVA-f
  18. 东芝固态硬盘工具for linux,用东芝笔记本Portege R100下安装Linux的进来参考这篇文章...
  19. Silvaco TCAD仿真1——TCAD概述
  20. 手机怎么把图片制作成短视频,原来还有这种傻瓜式的操作,长知识了

热门文章

  1. 《组织行为学》读后感_20170803
  2. 卖D版的抢Z版的钱,卖Z版的抢我的钱,都是流氓,我向着谁?
  3. vsode 编译报错:main.c:4:10: fatal error: iostream: 没有那个文件或目录
  4. ATX电源故障导致某些主板不能启动
  5. eas bos根据合同类别过滤自定义核算项目
  6. K/3 WISE新增自定核算项目
  7. 什么是平行样?怎么做?最大允许偏差是多少? 测量和其评定方法 ?
  8. SSM小项目(会议管理系统)二整合mybatis(图解超详细)
  9. MATLAB图片处理(上)
  10. redirect_uri参数错误