看了这个大神的博客—爬虫项目合集,自己也动手实践一下

请求:requests 解析:xpath
思路:找到起始网页(第一页),爬取初识网页的数据,获取下一页的链接,爬取下一页的数据,以此类推
非常简单,直接放代码:

import requests
from lxml import etreesource_url = "http://bj.xiaozhu.com/"  # 以北京地区为例
headers = {"user-agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/80.0.3987.106 Safari/537.36","referer": "http://bj.xiaozhu.com/"
}  # 请求头比较简单,如果被识别可以换为更复杂的(多加几个字段)data_lst = []  # 这里用list和dict简单存一下,最好存到数据库中(以后会用mysql)def request(url):response = requests.get(source_url, headers=headers).contentreturn responsedef get_data(text):html = etree.HTML(text)url_lst = html.xpath(".//div[@id='page_list']//li/a[@class='resule_img_a']/@href")for url in url_lst:ht = etree.HTML(requests.get(url, headers=headers).content)title = ht.xpath(".//div[@class='pho_info']/h4/em/text()")[0]  # 获取房源标题address = ht.xpath(".//div[@class='pho_info']/p/@title")[0]  # 获取房源地址price = ht.xpath(".//div[@class='day_l']/span/text()")[0]  # 获取房源价格data_dict = {}data_dict["title"] = titledata_dict["address"] = addressdata_dict["price"] = pricedata_lst.append(data_dict)next_url = html.xpath(".//div[@class='day_l']/span/text()")  # 获取下一页的网址return next_urlif __name__ == '__main__':next = ""page = 2for i in range(page):  # 这里的page可以自己随便设置,但不要超过页数范围if i == 0:text = request(source_url)else:text = request(next)next = get_data(text)print(data_lst)

爬虫项目1[爬取小猪短租数据]相关推荐

  1. Python爬虫入门 | 5 爬取小猪短租租房信息

    小猪短租是一个租房网站,上面有很多优质的民宿出租信息,下面我们以成都地区的租房信息为例,来尝试爬取这些数据. 小猪短租(成都)页面:http://cd.xiaozhu.com/   1.爬取租房标题 ...

  2. python爬取网上租房信息_Python爬虫入门 | 5 爬取小猪短租租房信息

    小猪短租是一个租房网站,上面有很多优质的民宿出租信息,下面我们以成都地区的租房信息为例,来尝试爬取这些数据. 1.爬取租房标题 按照惯例,先来爬下标题试试水,找到标题,复制xpath. 多复制几个房屋 ...

  3. 疫情过去女朋友想去重庆玩,python批量爬取小猪短租重庆民宿信息

    疫情过去女朋友想去重庆玩,python批量爬取小猪短租重庆民宿信息 随着时间的流逝,在中国共产党的领导,全国人民的共同努力下,疫情逐渐受到了控制,逐渐好转,复工,开学有望.最近在和女朋友的闲聊当中得知 ...

  4. python3通过Beautif和XPath分别爬取“小猪短租-北京”租房信息,并对比时间效率(附源代码)...

    爬虫思路分析: 1. 观察小猪短租(北京)的网页 首页:http://www.xiaozhu.com/?utm_source=baidu&utm_medium=cpc&utm_term ...

  5. 蛋壳公寓信息/信息网爬取/小猪短租/豆瓣/拉钩/人民邮电报/百度电视剧/加载更多-获取字符串中间任意内容

    调试 import requests from lxml import etreebase_url = 'https://www.danke.com/room/bj?page=1'headers = ...

  6. 使用BeautifulSoup爬取小猪短租的租房信息

    直接上代码 没有添加间隔时间 几页之后就被封了 #!/user/bin/env python #-*- coding:utf-8 -*- from bs4 import BeautifulSoup i ...

  7. [python爬虫] BeautifulSoup设置Cookie解决网站拦截并爬取蚂蚁短租

    我们在编写Python爬虫时,有时会遇到网站拒绝访问等反爬手段,比如这么我们想爬取蚂蚁短租数据,它则会提示"当前访问疑似黑客攻击,已被网站管理员设置为拦截"提示,如下图所示.此时我 ...

  8. python爬虫cookie池 与ip绑定_Python爬虫:设置Cookie解决网站拦截并爬取蚂蚁短租

    前言 文的文字及图片来源于网络,仅供学习.交流使用,不具有任何商业用途,版权归原作者所有,如有问题请及时联系我们以作处理. 作者: Eastmount PS:如有需要Python学习资料的小伙伴可以加 ...

  9. Python爬虫:设置Cookie解决网站拦截并爬取蚂蚁短租

    我们在编写Python爬虫时,有时会遇到网站拒绝访问等反爬手段,比如这么我们想爬取蚂蚁短租数据,它则会提示"当前访问疑似黑客攻击,已被网站管理员设置为拦截"提示,如下图所示.此时我 ...

  10. 利用python爬取天气预报_python实现天气爬虫——利用xpath爬取七天天气预报数据...

    python实现天气爬虫--利用xpath爬取七天天气预报数据 import pandas as pd import lxml import requests import csv from lxml ...

最新文章

  1. 机器学习4个常用超参数调试方法!
  2. 脑神经计算建模揭示前额叶皮层不同类型中间神经元在信息维持中的作用
  3. linux使用X11捕捉鼠标,如何在Linux下合法地以编程方式捕获第二个鼠标或轨迹球,X?...
  4. SpringBoot中整合Thymeleaf
  5. python函数的命名_18:命名, 变量, 代码, 函数
  6. securecrt7.0.0合并多个窗口
  7. spring配置druid连接池和监控数据库访问性能
  8. 学妹问我Java枚举类与注解,我直接用这个搞定她!
  9. 基本程序单元Activity—Activity生命周期之数据传递小程序
  10. word2vec模型评估_NLP之文本分类:「Tf-Idf、Word2Vec和BERT」三种模型比较
  11. Q79:怎么用三角形网格(Triangle Mesh)细分曲面
  12. select2多选设置select多选,select2取值和赋值
  13. Python文件转换为exe文件,可执行文件方法
  14. JPA报 Error executing DDL
  15. java打字小游戏_java实现打字游戏小程序
  16. 如何成为一个iOS开发者
  17. fwrite函数与fflush函数
  18. LTR 和 CTR 和 所谓的pointwise, pairwise, listwise的关系
  19. 如何打开微信dat文件
  20. 软件下载站【xing.isgreat.org】

热门文章

  1. bch verilog代码_BCH源码学习笔记 | 第一步:搭建BCH的源码学习环境
  2. 拦截X64安卓模拟器封包拦截发送技术(不用代理/网卡/dll一切)
  3. 可编程控制器PLC概述
  4. 团队合作开发常用git操作
  5. C语言零基础——简单门票费程序
  6. 日企抛等离子淘汰论 专家称其不敌中国企业
  7. LR录制https协议报证书错误,导航已阻止
  8. 玩真的了!深度解读拒不履行信息网络安全管理义务将入罪
  9. DEFS一个前所未有的金融生态!
  10. Gmail大改版,36岁的电子邮箱为何未像BBS一样消亡?