用scrapy写了个爬虫,爬取麦田北京二手房信息,一共爬取了11718条,也遇到了一些问题

  1. 页数限制
    比如访问北京市二手房只显示100页的数据,后面的数据访问不到,只能通过每个地区来爬取。在前端发现地区的信息使用json的格式写在前端,直接拿来用了。
  2. ip限制
    被网址识别出来是爬虫就会被禁止访问一段时间,用ip代理可以解决。我是在网上找的免费的ip代理,不稳定,还是挺折腾的。
  • 爬取过程
    访问每个二级地区,看看多少页,把每一页的链接保存到数据库。然后就从数据库获取待链接爬取数据,查重,保存数据,被禁止访问,过一段时间再来,哈哈。

  • 保存的数据
    Cycle

    url

    zufang

各地区售房数量

index_id district count
1 朝阳 6139
2 海淀 1822
3 丰台 828
4 东城 727
5 大兴 672
6 昌平 624
7 西城 445
8 石景山 168
9 通州 150
10 顺义 140
11 门头沟 3

每平方售价

房子售价

房子面积

scrapy 爬取麦田二手房信息相关推荐

  1. [Python 爬虫] 使用 Scrapy 爬取新浪微博用户信息(四) —— 应对反爬技术(选取 User-Agent、添加 IP代理池以及Cookies池 )

    上一篇:[Python 爬虫] 使用 Scrapy 爬取新浪微博用户信息(三) -- 数据的持久化--使用MongoDB存储爬取的数据 最近项目有些忙,很多需求紧急上线,所以一直没能完善< 使用 ...

  2. scrapy爬取——阿里招聘信息

    scrapy爬取--阿里招聘信息 爬取网站地址: https://job.alibaba.com/zhaopin/positionList.htm 1.创建项目 进入项目目录 输入cmd进入都是窗口创 ...

  3. [Python 爬虫] 使用 Scrapy 爬取新浪微博用户信息(二) —— 编写一个基本的 Spider 爬取微博用户信息

    上一篇:[Python 爬虫] 使用 Scrapy 爬取新浪微博用户信息(一) -- 新建爬虫项目 在上一篇我们新建了一个 sina_scrapy 的项目,这一节我们开始正式编写爬虫的代码. 选择目标 ...

  4. [Python 爬虫] 使用 Scrapy 爬取新浪微博用户信息(三) —— 数据的持久化——使用MongoDB存储爬取的数据

    上一篇:[Python 爬虫] 使用 Scrapy 爬取新浪微博用户信息(二) -- 编写一个基本的 Spider 爬取微博用户信息 在上一篇博客中,我们已经新建了一个爬虫应用,并简单实现了爬取一位微 ...

  5. 别再说难了,年轻小伙教你如何爬取“新一线城市”二手房信息

    别再说难了,年轻小伙教你如何爬取"新一线城市"二手房信息 主页面信息爬取 主页面分析 主页面url获取 获取页面数据 页面数据解析及保存 详情页 url 数据 详情页信息爬取 详情 ...

  6. R言rvest包爬取南京二手房信息

    R语言的理论学习也已经有一段时间了,数据分析的基础就是要获取数据,在如今的互联网时代,获取网络数据成为了数据分析师必不可少的随身技能,本篇就模仿R语言爬虫利器:rvest包+SelectorGadge ...

  7. scrapy 爬取拉勾网职位信息

    需求:1.使用python爬虫框架,爬取拉勾网职位信息, 2.将爬取的职位信息存储到json格式的文件中 3.将爬取的数据进行数据分析 1.图片中的链接是职位列表页的链接,进行翻页,该链接没有变化,无 ...

  8. scrapy爬取唯品会运动鞋信息并进行简单的数据处理和分析

    唯品会爬虫 一.环境准备 二.问题分析 三.spider 三.item 四.setting 五.pipelines 六.使用jupyter进行简单的数据处理和分析 一.环境准备 1. python3. ...

  9. 使用python scrapy爬取全国小区信息(包括小区价格,经纬度,面积,户数等),并保存到mysql和excel

    目标 此次爬取的网站是楼盘网,因为只爬取小区信息,所以先从深圳小区(http://sz.loupan.com/community/)网页入手分析,然后发散爬取至全国. 爬取的信息包括 省,所属市,所属 ...

最新文章

  1. Flex 弹性盒基本语法
  2. python3 线程隔离_Python并发编程之线程中的信息隔离(五)
  3. 《AlwaysRun!团队》第四次作业:项目需求调研与分析
  4. java epoll select_最新阿里、拼多多、快手Java岗面试题269 道送答案
  5. java 友好时间显示_仿微信的IM聊天时间显示格式(含iOS/Android/Web实现)[图文+源码]...
  6. 机器人 瓷砖墙面清洗_墙壁清洁机器人解析
  7. 电脑运行java游戏,电脑运行软件卡顿?这几招游戏或是办公,让你速度飞起!...
  8. Python 中文Key 报错问题
  9. 创业当然比守业难太多
  10. jquery 省市区联动插件
  11. epson r1900 清零软件_爱普生打印机清零软件
  12. Flash Builder4与Flash cs4 协同工作
  13. android 距离测量工具,尺子距离测量app
  14. HDU 6080 度度熊保护村庄 (叉积判断点线关系+图论)
  15. Choerodon猪齿鱼实践之Webhook配置
  16. 彻底弄明白Gradle相关配置
  17. Android旗舰机与苹果,真正的旗舰之王!iPhone和国产安卓旗舰机,谁才能够当之无愧?...
  18. 根据经纬度计算距离(百度地图)
  19. QAxObject 读写 excel
  20. 【modlearts】华为人工智能平台_modelarts平台系列教程3_预置算法_语音处理3

热门文章

  1. JS高级 之 Proxy-Reflect 使用详解
  2. 软件编程学习网站汇总——持续更新中
  3. halcon基于相关性的模式匹配
  4. linux克隆tf卡中的内容,TF/SD内存卡数据克隆怎样做图文详细教程
  5. 【Oracle】硬解析、软解析和软软解析
  6. [精选]大学生实习报告怎么写?
  7. 关于认知力的学习总结
  8. 一、SpringCloud五大神兽之Eureka(eurekaServer集群)
  9. 连上校园网可以上网但是显示无internet不能开热点或者热点可以打开但无ip分配(电脑诊断简单,时间久一些涉及到重启电脑)
  10. 租房注意事项(北京)