试着用scrapy将之前写的抓取链家网信息的重新写了写

然后先是用了第一页的网页作为测试,调试代码,然后发现总是抓取的时候遇见了

类似于这样的问题,并且抓取不到信息

2017-03-28 17:52:49 [scrapy.core.engine] DEBUG: Crawled (200)  (referer: None)

2017-03-28 17:52:49 [scrapy.downloadermiddlewares.robotstxt] DEBUG: Forbidden by robots.txt:

2017-03-28 17:52:49 [scrapy.core.engine] INFO: Closing spider (finished)

之前一直以为是因为没有加user-agent和header信息导致的,但是加上之后还是会出现这种情况,所以百度了下

解决办法是 在 setting.py 中:

''# Obey robots.txt rules

ROBOTSTXT_OBEY = True  //设置为 False 即可

就能抓出来了,问题是因为 scrapy 默认检测 robots.txt ,看是否可以抓取,如果不行,就不能用了哦!

然后百度了robot.txt,说是在设置爬虫的时候,在请求url之前,spider会向服务器请求一个robot.txt的文件,然后该文件包含了本站点允许爬虫爬取的范围(比如服务器不与许爬取的页面,可以通过robot协议设置)因为scrapy是遵守robot协议的,所以会先请求这个文件查看自己的权限。所以在setting.py中将ROBOTSTXT_OBEY设置为False就可以解决了

然后在将数据插入到mongodb中时,没有插入数据,是忘记在setting.py中激活项目管道组件了。

ITEM_PIPELINES = {

'House.pipelines.HousePipeline': 300,

}

代码就不贴了,挺简单的,都是设置的问题。

python找房源_python抓取链家房源信息(二)相关推荐

  1. Python爬虫三:抓取链家已成交二手房信息(58W数据)

    环境:Windows7+python3.6+Pycharm2017 目标:抓取链家北京地区已成交二手房信息(无需登录),如下图,户型.朝向.成交时间价格等,保存到csv.最后一共抓取约58W数据,程序 ...

  2. python下载电影_Python抓取电影天堂电影信息的代码

    Python2.7Mac OS 抓取的是电影天堂里面最新电影的页面.链接地址: http://www.dytt8.net/html/gndy/dyzz/index.html 获取页面的中电影详情页链接 ...

  3. python链家二手房_python 爬取链家二手房信息

    '''Created on 2017-10-9 @author: wbhuangzhiqiang''' importsysimportreimportcsvimporturllib.requestfr ...

  4. python爬虫之scrapy初试与抓取链家成交房产记录

    接上一篇文章,本机安装好python之后和scrapy之后,我们开始学习使用scrapy创建爬虫程序. 今天先来点简单的,不那么复杂,先看看抓取链家网里面的房价信息. 首先使用CMD命令行进入F盘创建 ...

  5. python爬虫requests源码链家_python爬虫——爬取链家房价信息(未完待续)

    爬取链家房价信息(未完待续) items.py # -*- coding: utf-8 -*- # Define here the models for your scraped items # # ...

  6. python关于二手房的课程论文_基于python爬取链家二手房信息代码示例

    基本环境配置 python 3.6 pycharm requests parsel time 相关模块pip安装即可 确定目标网页数据 哦豁,这个价格..................看到都觉得脑阔 ...

  7. 链家网开源java_异步协程爬取链家租房信息

    异步协程抓取链家数据+pandas写入csv import asyncio import aiohttp import pandas from bs4 import BeautifulSoup fro ...

  8. python爬虫requests源码链家_python爬虫爬取链家二手房信息

    #coding=utf-8 import requests from fake_useragent import UserAgent from bs4 import BeautifulSoup imp ...

  9. python爬虫——使用bs4爬取链家网的房源信息

    1. 先看效果 2. 进入链家网,这里我选择的是海口市点击跳转到链家网 3. 先看网页的结构,这些房子的信息都在li标签,而li标签再ul标签,所以怎么做大家都懂 4. 代码如下,url的链接大家可以 ...

最新文章

  1. 虚拟文件系统(VFS)
  2. 解决使用mybatis分页插件PageHelper的一个报错问题
  3. 【Java集合系列】---ArrayList
  4. 定时清理日志文件-python实现
  5. SQLSever触发器建立
  6. php提交多条数据,tpphp一个表单提交多个需要循环的数据怎么处理
  7. Google在Android P中隐藏了真棒的按应用自动旋转功能
  8. 网页修改iPhone13在线源码 – 无需SVIP
  9. python3 协程运行时 如何动态增加协程_python2.7 协程,如何调度运行两个协程?...
  10. 啥是佩奇,Python 告诉你!
  11. spring容器启动的加载过程(三)
  12. 顺序栈基本操作代码实现
  13. JS点击图片后图片放大效果
  14. 【pandas】 之 Series、DataFrame 的拼接 —— pd.concat、df.append(df)
  15. 2022-2027年中国OLED显示面板行业发展监测及投资战略研究报告
  16. 中国移动日渐步履蹒跚,中国电信在5G商用上取得领先优势
  17. java 对战平台-魔兽版
  18. border 边框样式
  19. python mysql版本查看_怎么查看mysql版本
  20. python 12306登录_基于Python3的12306登录实现

热门文章

  1. 浅析.Net 在 winform及wpf中涉及界面交互的多线程类的封装
  2. oracle本地安装注意事项
  3. leetcode-反转整数
  4. [php基础]PHP环境变量$_SERVER和系统常量详细说明
  5. WPF中MVVM模式(简略介绍)
  6. 【转】HttpModule和HttpHandler(续)
  7. 引用opencv异常
  8. 解决CodeBlocks中文不显示的问题
  9. WebFlux系列(十)WebClient 异常处理
  10. 【解决方案】SpringCloud项目优雅发版、部署