python用scrapy爬取58同城的租房信息
上篇我们用了beautifulsoup4做了简易爬虫,本次我们用scrapy写爬虫58同城的租房信息,可以爬取下一页的信息直至最后一页。
1、scrapy的安装
这个安装网上教程比较多,也比较简单,就不说了。
2、创建scrapy项目
在控制台 输入命令 scrapy startproject 项目名
3、导入项目到编译器,我这里用的pyscram,并在spiders文件夹下面创建zufang.py文件
4、zufang.py的编辑
下面的租房信息是我们要爬取的
在zufang.py写入以下代码,其中去除了空行和空格
import scrapy
class itemSpider(scrapy.Spider):# 爬虫名 启动爬虫时需要的参数*必需name = 'zufang'# 爬取域范围 允许爬虫在这个域名下进行爬取(可选) 可以不写# allowed_domains = ['itcast.cn']# 起始url列表 爬虫的第一批请求,将求这个列表里获取start_urls = ['https://hf.58.com/chuzu/?PGTID=0d100000-0034-561b-52aa-3b0813a79f76&ClickID=2']def parse(self, response):ul = response.xpath("//div[@class='des']//h2//a/text()")for data in ul:a= data.extract()b=str(a).strip()if b is not None:if b != '':print(b)item = {}item['address']=byield itemnext_url = response.xpath("//a[@class='next']/@href").extract_first()# print("下一页地址:"+next_url)if next_url !='':yield scrapy.Request(next_url,callback=self.parse)
5、在settings文件里面做如下设置
第一个注释,默认事true,改成false
第二个默认是注释的,打开就行
6、编写pipelines文件,把爬取的信息写道文件里面,代码如下:
# 构造方法def __init__(self):self.fp = None # 定义一个文件描述符属性# 重写父类的开始和结束方法# 开始爬虫时,执行一次def open_spider(self, spider):print('爬虫开始')self.fp = open('./data.txt', 'w')def process_item(self, item, spider):self.fp.write(item['address'] + "\n")return item#结束爬虫时,执行一次def close_spider(self,spider):self.fp.close()print('爬虫结束')
7、运行爬虫
命令:scrapy crawl zufang
8、结果
有3k条房源信息,我这里只获取了一个字段作为例子。
python用scrapy爬取58同城的租房信息相关推荐
- python爬取58同城所有租房信息_python爬虫:找房助手V1.0-爬取58同城租房信息
#!/usr/bin/python # -*- encoding:utf-8 -*-importrequests frombs4 importBeautifulSoup frommultiproces ...
- python:爬取58同城全部二手商品信息(转转网)
python_58ershou python+beautifulsoup多线程爬取58同城二手全部商品信息,并在jupyter上将数据可视化 项目主程序在58_index中: 建立mango数据库表 ...
- python爬取58同城的兼职信息
标题python爬取58同城的兼职信息 刚刚开始学习爬虫,一些 自己研究的小东西,爬取58同城上面的兼职信息放入Excel表格里,具体代码解释在代码里给出注释,下面给出完整代码: #首先是导包 imp ...
- 利用scrapy爬取58同城租房信息
tc.py 代码 # -*- coding: utf-8 -*- import scrapy from ..items import TcItemclass Tc58Spider(scrapy.Spi ...
- python之scrapy爬取jd和qq招聘信息
1.settings.py文件 # -*- coding: utf-8 -*-# Scrapy settings for jd project # # For simplicity, this fil ...
- python爬取58同城房子发布的手机号码_爬虫(成都58同城所有房价,Python实现)
Python实现爬虫(爬取58同城所有房价) 程序发布日期2018-9-25(如果以后不能使用了,就需要更改解析方式.) github博客传送门 csdn博客传送门 爬虫文件(Python实现)-爬取 ...
- Python 爬取58同城以及解析
python爬虫--爬取58同城房屋的信息 仅供参考 解析58同城的字体反爬 58同城出租房屋 这是爬取下来的数据: 我们用谷歌浏览器右击点开查看网页源代码搜索font-face可以看到一串用base ...
- 利用python爬取58同城简历数据
利用python爬取58同城简历数据 最近接到一个工作,需要获取58同城上面的简历信息(http://gz.58.com/qzyewu/).最开始想到是用python里面的scrapy框架制作爬虫.但 ...
- 利用python爬取58同城简历数据_利用python爬取58同城简历数据-Go语言中文社区
利用python爬取58同城简历数据 最近接到一个工作,需要获取58同城上面的简历信息(http://gz.58.com/qzyewu/).最开始想到是用python里面的scrapy框架制作爬虫.但 ...
最新文章
- 七个最流行的Python神经网络库
- 宜人贷,指旺理财,投米网有什么不一样?
- 宝塔中mysql数据库命名小坑
- OS中阻塞与挂起的区别sleep()的实现原理
- poj 2528 Mayor's posters (线段树+离散化)
- 关于模型预测结果好坏的几个评价指标
- 浪潮as5300技术方案_浪潮智能存储AS5300G2双活解决方案
- 在react里写原生js_从零开始使用react+antd搭建项目
- jdk1.5新特性5之枚举之模拟枚举类型
- bzoj 1076 奖励关 状压+期望dp
- 漆桂林:多模态知识图谱种类及其应用
- springMVC helloworld入门
- 实现自动登录:Filter 实现思路和方式
- 万物皆可python_Python知识点合集,学完万物皆可爬
- vpx计算机论文,vpx总线
- JPEG压缩原理详解
- html让图片悬浮在网页,网页制作灰度图片悬浮效果利用HTML5和jQuery实现
- u盘中毒了怎么恢复文件?一分钟了解恢复方法
- 通道剪枝Channel Pruning
- 购买企业邮箱价格多少钱?企业邮箱注册申请哪个好?
热门文章
- gb2818的学习第一课
- JAVA面试题大全(part_1)
- 股票入门浅学20210721
- python能在ipad上运行吗_如何用iPad运行Python代码?
- java 地图坐标转换_百度地图坐标和高德地图坐标转换代码 Java实现
- cse7761电能计量芯片驱动程序
- 防火墙 蓝精灵DoS P127
- input标签 设置纯数字输入
- html判断是否在微信里打开,JavaScript判断浏览器内核,微信打开自动提示在浏览器打开...
- wp下载吧主题模板_内含newzhan2.60无授权版本