用requests + xpath 爬取小猪短租信息。
学习了xpath后,觉得这个工具真是非常的好用。
以下为完整代码:

import requests
from lxml import etree
import timedef getHTMLtext(url):try:r = requests.get(url,headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 6.1; Win64; x64) App''leWebKit/537.36 (KHTML, like Gecko) Chrome/69.0.3497.100 Sa''fari/537.36'})r.raise_for_status()r.encoding = r.apparent_encodingreturn r.textexcept:return print("异常")
def parsehtml(html):file = etree.HTML(html)s = file.xpath('//*[@id="page_list"]/ul/li') #某页面下所有主题的xpath#对每一个主题进行处理with open(r'C:\Users\**\Desktop\xiaozhuduanzhu.txt','a',encoding='utf-8') as f:for i in s:title = i.xpath('./div[2]/div[2]/a/span/text()')[0]price = i.xpath('./div[2]/div[1]/span/i/text()')[0] #标签内的信息picture = i.xpath('./a/img/@lazy_src')[0].strip()    #标签内的属性scrible = i.xpath('./div[2]/div[2]/em/text()')[0]f.write("{}\t{}\t{}\t{}\n".format(title,price,scrible,picture))
def main():#只爬取5页for i in range(1,6):url = 'http://cd.xiaozhu.com/search-duanzufang-p{}-0/'.format(i)html = getHTMLtext(url)time.sleep(1)   #爬取太快会禁止访问parsehtml(html)if __name__ == '__main__':main()

python爬取小猪短租信息相关推荐

  1. 疫情过去女朋友想去重庆玩,python批量爬取小猪短租重庆民宿信息

    疫情过去女朋友想去重庆玩,python批量爬取小猪短租重庆民宿信息 随着时间的流逝,在中国共产党的领导,全国人民的共同努力下,疫情逐渐受到了控制,逐渐好转,复工,开学有望.最近在和女朋友的闲聊当中得知 ...

  2. Python爬虫入门 | 5 爬取小猪短租租房信息

    小猪短租是一个租房网站,上面有很多优质的民宿出租信息,下面我们以成都地区的租房信息为例,来尝试爬取这些数据. 小猪短租(成都)页面:http://cd.xiaozhu.com/   1.爬取租房标题 ...

  3. python爬取网上租房信息_Python爬虫入门 | 5 爬取小猪短租租房信息

    小猪短租是一个租房网站,上面有很多优质的民宿出租信息,下面我们以成都地区的租房信息为例,来尝试爬取这些数据. 1.爬取租房标题 按照惯例,先来爬下标题试试水,找到标题,复制xpath. 多复制几个房屋 ...

  4. 蛋壳公寓信息/信息网爬取/小猪短租/豆瓣/拉钩/人民邮电报/百度电视剧/加载更多-获取字符串中间任意内容

    调试 import requests from lxml import etreebase_url = 'https://www.danke.com/room/bj?page=1'headers = ...

  5. python3通过Beautif和XPath分别爬取“小猪短租-北京”租房信息,并对比时间效率(附源代码)...

    爬虫思路分析: 1. 观察小猪短租(北京)的网页 首页:http://www.xiaozhu.com/?utm_source=baidu&utm_medium=cpc&utm_term ...

  6. 使用BeautifulSoup爬取小猪短租的租房信息

    直接上代码 没有添加间隔时间 几页之后就被封了 #!/user/bin/env python #-*- coding:utf-8 -*- from bs4 import BeautifulSoup i ...

  7. [python爬虫] BeautifulSoup设置Cookie解决网站拦截并爬取蚂蚁短租

    我们在编写Python爬虫时,有时会遇到网站拒绝访问等反爬手段,比如这么我们想爬取蚂蚁短租数据,它则会提示"当前访问疑似黑客攻击,已被网站管理员设置为拦截"提示,如下图所示.此时我 ...

  8. python爬虫cookie池 与ip绑定_Python爬虫:设置Cookie解决网站拦截并爬取蚂蚁短租

    前言 文的文字及图片来源于网络,仅供学习.交流使用,不具有任何商业用途,版权归原作者所有,如有问题请及时联系我们以作处理. 作者: Eastmount PS:如有需要Python学习资料的小伙伴可以加 ...

  9. Python爬虫:设置Cookie解决网站拦截并爬取蚂蚁短租

    我们在编写Python爬虫时,有时会遇到网站拒绝访问等反爬手段,比如这么我们想爬取蚂蚁短租数据,它则会提示"当前访问疑似黑客攻击,已被网站管理员设置为拦截"提示,如下图所示.此时我 ...

  10. python关于二手房的课程论文_基于python爬取链家二手房信息代码示例

    基本环境配置 python 3.6 pycharm requests parsel time 相关模块pip安装即可 确定目标网页数据 哦豁,这个价格..................看到都觉得脑阔 ...

最新文章

  1. JQuery事件绑定,bind与on区别
  2. 解决ubuntu中遇到“E:Unable to locate package rar” 的问题
  3. 国产期刊崛起!上海大学、郑州大学主办期刊IF超15,2021版SCI期刊影响因子出炉...
  4. 清华姚班2019级新生来了:高考状元、奥赛金牌,也是一批被AI感召的00后
  5. MAC下homebre安装mysql
  6. sqlserver 日常检查脚本
  7. python-朴素贝叶斯分类器
  8. 双显卡只用独显好吗_双动力洗衣机好吗
  9. _系列 | 全自动泊车辅助F-APA简介(系列一)
  10. 【PTA L1-028】判断素数 开方判断质数
  11. USB-PPI数据电缆驱动
  12. zjnu 1779 KRUŽNICE(线段树成段更新+离散化)
  13. win服务器系统无法切换输入法,Win10系统下中英文输入法无法切换的解决方案
  14. 软件架构与设计(二)-----架构模型
  15. node.js代码总结
  16. 最大数leetcode_Leetcode:最大化有效体验
  17. 百度谷歌等各大搜索引擎网站收录提交入口
  18. P4961 小埋与扫雷
  19. 麒麟OS和龙芯环境编译安装GreatSQL
  20. 国A级和国AA级代表什么意思呢?2022年护眼灯选国A还是国AA好

热门文章

  1. 【数字IC】深入浅出理解AXI协议
  2. GDB X命令详解
  3. 100m光纤测速多少正常_100m宽带wifi测速多少为正常
  4. 基于SpringBoot+JSoup+POI+Swagger2实现校园教务系统成绩课程等信息抓取,并提供接口访问的小项目
  5. OI生涯回忆录(Part8:至高一省选Day1)
  6. NVIDIA驱动安装(arm64平台可用)
  7. [翻译]机器学习如何个性化推荐音乐
  8. html 分号的作用,分号的作用是什么
  9. Java的Exception异常机制(一)
  10. uni-app:搜索关键词并高亮显示,可重复显示