Scrapy十秒钟爬取贝壳二手房3000条房源信息

此文章由码上风云原创！

1、安装 Scrapy 爬虫框架：pip install Scrapy

2、创建一个 Scrapy 项目：Scrapy startproject beike

3、将创建好的项目导入PyCharm中打开，在 Spider文件夹中创建爬虫文件

4、爬虫代码如下：

import scrapy
class mingyan(scrapy.Spider):name='beike'def start_requests(self):link='https://xy.ke.com/ershoufang/pg{}'for i in range(1,101):url=link.format(i)yield scrapy.Request(url=url, callback=self.parse)def parse(self,response):for selector in response.xpath('//*/li[@class="clear"]'):title = selector.xpath('div[1]/div[1]/a/@title').extract()[0]price= selector.xpath('div[1]/div[2]/div[5]/div[1]/span/text()').extract()[0]address = selector.xpath('div[1]/div[2]/div[1]/div[1]/a/text()').extract()[0]info_dict={'title':title,'price':price,"address":address}yield info_dict

5、编写完程序后需要对爬取结果进行导出存储：
scrapy crawl beike -o beike.csv

欢迎大家到我的个人博客浏览更多原创文章：www.jboss.xyz

Scrapy十秒钟爬取贝壳二手房3000条房源信息相关推荐

Python异步爬虫技术：10秒抓取3000条房源信息！
本文先熟悉并发与并行.阻塞与非阻塞.同步与异步.多线程.多线程.协程的基本概念.再实现asyncio + aiohttp爬取链家成都二手房源信息的异步爬虫,爬取效率与多线程版进行简单测试和比较. 1. ...
Python爬虫爬取链家网上的房源信息练习
一原链接:用Python爬虫爬取链家网上的房源信息_shayebuhui_a的博客-CSDN博客_python爬取链家打开链家网页:https://sh.lianjia.com/zufang/ ...
利用 Python 爬取了近 3000 条单身女生的数据，究竟她们理想的择偶标准是什么？
灵感来源与学习:利用 Python 爬取了 13966 条运维招聘信息,我得出了哪些结论? 本文原创作者:壹加柒本文来源链接:https://blog.csdn.net/yu1300000363/a ...
【Python】爬取了近3000条单身女生的数据，究竟她们理想的择偶标准是什么？
灵感来源与学习:<利用 Python 爬取了 13966 条运维招聘信息,我得出了哪些结论?> 本文原创作者:壹加柒前几天手机上CSDN推荐了一篇文章<利用 Python 爬取了 ...
Python网络爬虫与信息提取（9）—— scrapy实战之爬取黑马程序员网页讲师信息
前言之前是使用request库爬取网页,但是大型的网络爬虫使用框架爬取会事半功倍,今天实战爬取这个网页讲师的信息:https://www.itcast.cn/channel/teacher.shtm ...
python爬虫——使用bs4爬取链家网的房源信息
1. 先看效果 2. 进入链家网,这里我选择的是海口市点击跳转到链家网 3. 先看网页的结构,这些房子的信息都在li标签,而li标签再ul标签,所以怎么做大家都懂 4. 代码如下,url的链接大家可以 ...
利用python爬取我爱我家租赁房源信息
主要思路: 1.通过get方法向服务器提交head文件和cookie信息(通过在chrome网页上面登录之后获取,避免了通过账号密码模拟登陆的繁琐过程),实现模拟登陆的效果 2.访问网页,通过万能的正 ...
python 安居客爬虫_爬虫学习6：爬取安居客的VR房源信息
公司的VR产品在推广前夕,需要做一个较详细的市场分析报告,我们可以从下面几个步骤来深入探讨: 1.需要展望整个VR的市场规模有多大,从而论证我们需要面对的市场分量, 2.在这个大市场下面,我们面对的细 ...
Python爬取链家网上的房源信息
import re # 正则表达式,进行文字匹配 from bs4 import BeautifulSoup # 网页解析,获取数据 import urllib.request, urllib.err ...

Scrapy十秒钟爬取贝壳二手房3000条房源信息

Scrapy十秒钟爬取贝壳二手房3000条房源信息相关推荐

最新文章

热门文章