python用scrapy爬取58同城的租房信息

上篇我们用了beautifulsoup4做了简易爬虫，本次我们用scrapy写爬虫58同城的租房信息，可以爬取下一页的信息直至最后一页。
1、scrapy的安装
这个安装网上教程比较多，也比较简单，就不说了。
2、创建scrapy项目
在控制台输入命令 scrapy startproject 项目名

3、导入项目到编译器，我这里用的pyscram，并在spiders文件夹下面创建zufang.py文件

4、zufang.py的编辑
下面的租房信息是我们要爬取的

在zufang.py写入以下代码，其中去除了空行和空格

import scrapy
class itemSpider(scrapy.Spider):# 爬虫名 启动爬虫时需要的参数*必需name = 'zufang'# 爬取域范围 允许爬虫在这个域名下进行爬取（可选）  可以不写# allowed_domains = ['itcast.cn']# 起始url列表  爬虫的第一批请求，将求这个列表里获取start_urls = ['https://hf.58.com/chuzu/?PGTID=0d100000-0034-561b-52aa-3b0813a79f76&ClickID=2']def parse(self, response):ul = response.xpath("//div[@class='des']//h2//a/text()")for data in ul:a= data.extract()b=str(a).strip()if b is not None:if b != '':print(b)item = {}item['address']=byield  itemnext_url = response.xpath("//a[@class='next']/@href").extract_first()# print("下一页地址："+next_url)if next_url !='':yield scrapy.Request(next_url,callback=self.parse)

5、在settings文件里面做如下设置

第一个注释，默认事true，改成false
第二个默认是注释的，打开就行

6、编写pipelines文件，把爬取的信息写道文件里面，代码如下：

  # 构造方法def __init__(self):self.fp = None  # 定义一个文件描述符属性# 重写父类的开始和结束方法# 开始爬虫时，执行一次def open_spider(self, spider):print('爬虫开始')self.fp = open('./data.txt', 'w')def process_item(self, item, spider):self.fp.write(item['address'] + "\n")return item#结束爬虫时，执行一次def close_spider(self,spider):self.fp.close()print('爬虫结束')

7、运行爬虫
命令：scrapy crawl zufang

8、结果

有3k条房源信息，我这里只获取了一个字段作为例子。

python用scrapy爬取58同城的租房信息相关推荐

python爬取58同城所有租房信息_python爬虫：找房助手V1.0-爬取58同城租房信息
#!/usr/bin/python # -*- encoding:utf-8 -*-importrequests frombs4 importBeautifulSoup frommultiproces ...
python：爬取58同城全部二手商品信息（转转网）
python_58ershou python+beautifulsoup多线程爬取58同城二手全部商品信息,并在jupyter上将数据可视化项目主程序在58_index中: 建立mango数据库表 ...
python爬取58同城的兼职信息
标题python爬取58同城的兼职信息刚刚开始学习爬虫,一些自己研究的小东西,爬取58同城上面的兼职信息放入Excel表格里,具体代码解释在代码里给出注释,下面给出完整代码: #首先是导包 imp ...
利用scrapy爬取58同城租房信息
tc.py 代码 # -*- coding: utf-8 -*- import scrapy from ..items import TcItemclass Tc58Spider(scrapy.Spi ...
python之scrapy爬取jd和qq招聘信息
1.settings.py文件 # -*- coding: utf-8 -*-# Scrapy settings for jd project # # For simplicity, this fil ...
python爬取58同城房子发布的手机号码_爬虫(成都58同城所有房价,Python实现)
Python实现爬虫(爬取58同城所有房价) 程序发布日期2018-9-25(如果以后不能使用了,就需要更改解析方式.) github博客传送门 csdn博客传送门爬虫文件(Python实现)-爬取 ...
Python 爬取58同城以及解析
python爬虫--爬取58同城房屋的信息仅供参考解析58同城的字体反爬 58同城出租房屋这是爬取下来的数据: 我们用谷歌浏览器右击点开查看网页源代码搜索font-face可以看到一串用base ...
利用python爬取58同城简历数据
利用python爬取58同城简历数据最近接到一个工作,需要获取58同城上面的简历信息(http://gz.58.com/qzyewu/).最开始想到是用python里面的scrapy框架制作爬虫.但 ...
利用python爬取58同城简历数据_利用python爬取58同城简历数据-Go语言中文社区
利用python爬取58同城简历数据最近接到一个工作,需要获取58同城上面的简历信息(http://gz.58.com/qzyewu/).最开始想到是用python里面的scrapy框架制作爬虫.但 ...

python用scrapy爬取58同城的租房信息

python用scrapy爬取58同城的租房信息相关推荐

最新文章

热门文章