此文章由码上风云原创!

1、安装 Scrapy 爬虫框架:pip install Scrapy

2、创建一个 Scrapy 项目:Scrapy startproject beike

3、将创建好的项目导入PyCharm中打开,在 Spider文件夹中创建爬虫文件

4、爬虫代码如下:

import scrapy
class mingyan(scrapy.Spider):name='beike'def start_requests(self):link='https://xy.ke.com/ershoufang/pg{}'for i in range(1,101):url=link.format(i)yield scrapy.Request(url=url, callback=self.parse)def parse(self,response):for selector in response.xpath('//*/li[@class="clear"]'):title = selector.xpath('div[1]/div[1]/a/@title').extract()[0]price= selector.xpath('div[1]/div[2]/div[5]/div[1]/span/text()').extract()[0]address = selector.xpath('div[1]/div[2]/div[1]/div[1]/a/text()').extract()[0]info_dict={'title':title,'price':price,"address":address}yield info_dict

5、编写完程序后需要对爬取结果进行导出存储:
scrapy crawl beike -o beike.csv

欢迎大家到我的个人博客浏览更多原创文章:www.jboss.xyz

Scrapy十秒钟爬取贝壳二手房3000条房源信息相关推荐

  1. Python异步爬虫技术:10秒抓取3000条房源信息!

    本文先熟悉并发与并行.阻塞与非阻塞.同步与异步.多线程.多线程.协程的基本概念.再实现asyncio + aiohttp爬取链家成都二手房源信息的异步爬虫,爬取效率与多线程版进行简单测试和比较. 1. ...

  2. Python爬虫爬取链家网上的房源信息练习

    一 原链接:用Python爬虫爬取链家网上的房源信息_shayebuhui_a的博客-CSDN博客_python爬取链家 打开链家网页:https://sh.lianjia.com/zufang/  ...

  3. 利用 Python 爬取了近 3000 条单身女生的数据,究竟她们理想的择偶标准是什么?

    灵感来源与学习:利用 Python 爬取了 13966 条运维招聘信息,我得出了哪些结论? 本文原创作者:壹加柒 本文来源链接:https://blog.csdn.net/yu1300000363/a ...

  4. 【Python】爬取了近3000条单身女生的数据,究竟她们理想的择偶标准是什么?

    灵感来源与学习:<利用 Python 爬取了 13966 条运维招聘信息,我得出了哪些结论?> 本文原创作者:壹加柒 前几天手机上CSDN推荐了一篇文章<利用 Python 爬取了 ...

  5. Python网络爬虫与信息提取(9)—— scrapy实战之爬取黑马程序员网页讲师信息

    前言 之前是使用request库爬取网页,但是大型的网络爬虫使用框架爬取会事半功倍,今天实战爬取这个网页讲师的信息:https://www.itcast.cn/channel/teacher.shtm ...

  6. python爬虫——使用bs4爬取链家网的房源信息

    1. 先看效果 2. 进入链家网,这里我选择的是海口市点击跳转到链家网 3. 先看网页的结构,这些房子的信息都在li标签,而li标签再ul标签,所以怎么做大家都懂 4. 代码如下,url的链接大家可以 ...

  7. 利用python爬取我爱我家租赁房源信息

    主要思路: 1.通过get方法向服务器提交head文件和cookie信息(通过在chrome网页上面登录之后获取,避免了通过账号密码模拟登陆的繁琐过程),实现模拟登陆的效果 2.访问网页,通过万能的正 ...

  8. python 安居客 爬虫_爬虫学习6:爬取安居客的VR房源信息

    公司的VR产品在推广前夕,需要做一个较详细的市场分析报告,我们可以从下面几个步骤来深入探讨: 1.需要展望整个VR的市场规模有多大,从而论证我们需要面对的市场分量, 2.在这个大市场下面,我们面对的细 ...

  9. Python爬取链家网上的房源信息

    import re # 正则表达式,进行文字匹配 from bs4 import BeautifulSoup # 网页解析,获取数据 import urllib.request, urllib.err ...

最新文章

  1. php 前端控制器,前端控制器模式
  2. nginx+tomcat实现主备切换
  3. ServletUriComponentsBuilder遇到Nginx反向代理时,无法识别HTTPS
  4. 如何准备电赛?19年电赛经验总结!
  5. protobuf---messge嵌套get set
  6. mongoose如何发送html页面,Mongoose/Express/Nodejs尝试从服务器到html传递变量
  7. hadoop 单机单间_初学Hadoop之单机模式环境搭建
  8. java基础面试题之:super与this的区别
  9. 前n个正整数相乘的时间复杂度为_初一数学常考的21个知识点,掌握好,轻松110+!...
  10. jsp 连接sql数据库查询(源代码)
  11. python是什么-Python 简介
  12. react调试工具Reactdevelopertools
  13. Java——学生管理系统
  14. linux下ptp性能测试
  15. 网易2019实习生招聘-数对
  16. android ui ue,什么是UI设计,UE设计,二者有什么区别?
  17. 计算机中用函数排序,编写一个sort()函数,实现选择法排序,在主函数中输入10个整数,主函数调用sort()函数实现排序后将数据输出。...
  18. 出走的门徒之四:丰元创投朱会灿:冒险的牧师
  19. RAD Studio 11.X Alexandria release有何新的改变及改变实务
  20. Cisco Packet Tracer 典型校园网搭建

热门文章

  1. UbuntuLinux 16.04系统升级Docker CE
  2. 前端AI语音方面的实现
  3. Juniper路由器
  4. php7 phalcon,GitHub - shyn0121/cphalcon7: Phalcon7 - Web framework for PHP7.x 高性能PHP7框架
  5. CKEditor和CKFinder及CKEditor配置属性说明
  6. AURIX TC397 SCU 之 ERU 外部中断
  7. react-native调用Android原生模块
  8. 在家徒手健身就是这9个动作,让你一天帅24小时
  9. 可重复读隔离级别如何解决脏读、不可重复读
  10. 基于ngx-rtmp-module模块http-flv直播流的实现