上篇我们用了beautifulsoup4做了简易爬虫,本次我们用scrapy写爬虫58同城的租房信息,可以爬取下一页的信息直至最后一页。
1、scrapy的安装
这个安装网上教程比较多,也比较简单,就不说了。
2、创建scrapy项目
在控制台 输入命令 scrapy startproject 项目名

3、导入项目到编译器,我这里用的pyscram,并在spiders文件夹下面创建zufang.py文件

4、zufang.py的编辑
下面的租房信息是我们要爬取的

在zufang.py写入以下代码,其中去除了空行和空格

import scrapy
class itemSpider(scrapy.Spider):# 爬虫名 启动爬虫时需要的参数*必需name = 'zufang'# 爬取域范围 允许爬虫在这个域名下进行爬取(可选)  可以不写# allowed_domains = ['itcast.cn']# 起始url列表  爬虫的第一批请求,将求这个列表里获取start_urls = ['https://hf.58.com/chuzu/?PGTID=0d100000-0034-561b-52aa-3b0813a79f76&ClickID=2']def parse(self, response):ul = response.xpath("//div[@class='des']//h2//a/text()")for data in ul:a= data.extract()b=str(a).strip()if b is not None:if b != '':print(b)item = {}item['address']=byield  itemnext_url = response.xpath("//a[@class='next']/@href").extract_first()# print("下一页地址:"+next_url)if next_url !='':yield scrapy.Request(next_url,callback=self.parse)

5、在settings文件里面做如下设置


第一个注释,默认事true,改成false
第二个默认是注释的,打开就行

6、编写pipelines文件,把爬取的信息写道文件里面,代码如下:

  # 构造方法def __init__(self):self.fp = None  # 定义一个文件描述符属性# 重写父类的开始和结束方法# 开始爬虫时,执行一次def open_spider(self, spider):print('爬虫开始')self.fp = open('./data.txt', 'w')def process_item(self, item, spider):self.fp.write(item['address'] + "\n")return item#结束爬虫时,执行一次def close_spider(self,spider):self.fp.close()print('爬虫结束')

7、运行爬虫
命令:scrapy crawl zufang

8、结果

有3k条房源信息,我这里只获取了一个字段作为例子。

python用scrapy爬取58同城的租房信息相关推荐

  1. python爬取58同城所有租房信息_python爬虫:找房助手V1.0-爬取58同城租房信息

    #!/usr/bin/python # -*- encoding:utf-8 -*-importrequests frombs4 importBeautifulSoup frommultiproces ...

  2. python:爬取58同城全部二手商品信息(转转网)

    python_58ershou python+beautifulsoup多线程爬取58同城二手全部商品信息,并在jupyter上将数据可视化 项目主程序在58_index中: 建立mango数据库表 ...

  3. python爬取58同城的兼职信息

    标题python爬取58同城的兼职信息 刚刚开始学习爬虫,一些 自己研究的小东西,爬取58同城上面的兼职信息放入Excel表格里,具体代码解释在代码里给出注释,下面给出完整代码: #首先是导包 imp ...

  4. 利用scrapy爬取58同城租房信息

    tc.py 代码 # -*- coding: utf-8 -*- import scrapy from ..items import TcItemclass Tc58Spider(scrapy.Spi ...

  5. python之scrapy爬取jd和qq招聘信息

    1.settings.py文件 # -*- coding: utf-8 -*-# Scrapy settings for jd project # # For simplicity, this fil ...

  6. python爬取58同城房子发布的手机号码_爬虫(成都58同城所有房价,Python实现)

    Python实现爬虫(爬取58同城所有房价) 程序发布日期2018-9-25(如果以后不能使用了,就需要更改解析方式.) github博客传送门 csdn博客传送门 爬虫文件(Python实现)-爬取 ...

  7. Python 爬取58同城以及解析

    python爬虫--爬取58同城房屋的信息 仅供参考 解析58同城的字体反爬 58同城出租房屋 这是爬取下来的数据: 我们用谷歌浏览器右击点开查看网页源代码搜索font-face可以看到一串用base ...

  8. 利用python爬取58同城简历数据

    利用python爬取58同城简历数据 最近接到一个工作,需要获取58同城上面的简历信息(http://gz.58.com/qzyewu/).最开始想到是用python里面的scrapy框架制作爬虫.但 ...

  9. 利用python爬取58同城简历数据_利用python爬取58同城简历数据-Go语言中文社区

    利用python爬取58同城简历数据 最近接到一个工作,需要获取58同城上面的简历信息(http://gz.58.com/qzyewu/).最开始想到是用python里面的scrapy框架制作爬虫.但 ...

最新文章

  1. 七个最流行的Python神经网络库
  2. 宜人贷,指旺理财,投米网有什么不一样?
  3. 宝塔中mysql数据库命名小坑
  4. OS中阻塞与挂起的区别sleep()的实现原理
  5. poj 2528 Mayor's posters (线段树+离散化)
  6. 关于模型预测结果好坏的几个评价指标
  7. 浪潮as5300技术方案_浪潮智能存储AS5300G2双活解决方案
  8. 在react里写原生js_从零开始使用react+antd搭建项目
  9. jdk1.5新特性5之枚举之模拟枚举类型
  10. bzoj 1076 奖励关 状压+期望dp
  11. 漆桂林:多模态知识图谱种类及其应用
  12. springMVC helloworld入门
  13. 实现自动登录:Filter 实现思路和方式
  14. 万物皆可python_Python知识点合集,学完万物皆可爬
  15. vpx计算机论文,vpx总线
  16. JPEG压缩原理详解
  17. html让图片悬浮在网页,网页制作灰度图片悬浮效果利用HTML5和jQuery实现
  18. u盘中毒了怎么恢复文件?一分钟了解恢复方法
  19. 通道剪枝Channel Pruning
  20. 购买企业邮箱价格多少钱?企业邮箱注册申请哪个好?

热门文章

  1. gb2818的学习第一课
  2. JAVA面试题大全(part_1)
  3. 股票入门浅学20210721
  4. python能在ipad上运行吗_如何用iPad运行Python代码?
  5. java 地图坐标转换_百度地图坐标和高德地图坐标转换代码 Java实现
  6. cse7761电能计量芯片驱动程序
  7. 防火墙 蓝精灵DoS P127
  8. input标签 设置纯数字输入
  9. html判断是否在微信里打开,JavaScript判断浏览器内核,微信打开自动提示在浏览器打开...
  10. wp下载吧主题模板_内含newzhan2.60无授权版本