爬虫采集成为很多公司企业个人的需求,但正因为如此,反爬虫的技术也层出不穷,像时间限制、IP限制、验证码限制等等,都可能会导致爬虫无法进行,所以也出现了很多像代理IP、时间限制调整这样的方法去接触反爬虫限制,当然具体的操作方法需要你针对性的去研究。
爬虫采集数据过程中经常会出现受限问题,那么具体哪些原因会导致爬虫被禁封呢?
1、检查JavaScript
如果你从网络服务器收到的页面是空白的,缺少信息,或其遇到他不符合你预期的情况(或者不是你在浏览器上看到的内容),有可能是因为网站创建页面的JavaScript执行有问题。
2、检查正常浏览器提交的参数
如果你准备向网站提交表单或发出POST请求,记得检查一下页面的内容,看看你想提交的每个字段是不是都已经填好,而且格式也正确。用Chrome浏览器的网络面板(快捷键F12打开开发者控制台,然后点击“Network”即可看到)查看发送到网站的POST命令,确认你的每个参数都是正确的。
3、是否有合法的Cookie
如果你已经登录网站却不能保持登录状态,或者网站上出现了其他的“登录状态”异常,请检查你的cookie。确认在加载每个页面时cookie都被正确调用,而且你的cookie在每次发起请求时都发送到了网站上。
4、IP被封禁
如果你在客户端遇到了HTTP错误,尤其是403禁止访问错误,这可能说明网站已经把你的IP当作机器人了,不再接受你的任何请求。你要么等待你的IP地址从网站黑名单里移除,要么就换个IP地址(可以使用代理IP,比如极光代理)。如果你确定自己并没有被封杀,那么再检查下面的内容。

5、确认你的爬虫在网站上的速度不是特别快
快速采集是一种恶习,会对网管的服务器造成沉重的负担,还会让你陷入违法境地,也是IP被网站列入黑名单的首要原因。给你的爬虫增加延迟,让它们在夜深人静的时候运行。切记:匆匆忙忙写程序或收集数据都是拙劣项目管理的表现;应该提前做好计划,避免临阵慌乱。
6、修改你的请求头(必须做的事情)
有些网站会封杀任何声称自己是爬虫的访问者。如果你不确定请求头的值怎样才算合适,就用你自己浏览器的请求头吧。
7、确认你没有点击或访问任何人类用户通常不能点击或接入的信息。

干货|爬虫被封的几个常见原因相关推荐

  1. 为何大量网站不能抓取?爬虫突破封禁的6种常见方法

    为何大量网站不能抓取?爬虫突破封禁的6种常见方法 在互联网上进行自动数据采集(抓取)这件事和互联网存在的时间差不多一样长.今天大众好像更倾向于用"网络数据采集",有时会把网络数据采 ...

  2. Python爬虫突破封禁的6种常见方法

    在互联网上进行自动数据采集(抓取)这件事和互联网存在的时间差不多一样长.今天大众好像更倾向于用"网络数据采集",有时会把网络数据采集程序称为网络机器人(bots).最常用的方法是写 ...

  3. Python爬虫被封ip解决方案

    在使用 Python 程序进行网络爬虫开发时,可能因以下原因导致被封 IP 或封禁爬虫程序: 1.频繁访问网站 爬虫程序可能会在很短的时间内访问网站很多次,从而对目标网站造成较大的负担和压力,这种行为 ...

  4. python爬虫cookie池 与ip绑定_Python爬虫防封ip的一些技巧

    在编写爬虫爬取数据的时候,因为很多网站都有反爬虫措施,所以很容易被封IP,就不能继续爬了.在爬取大数据量的数据时更是瑟瑟发抖,时刻担心着下一秒IP可能就被封了. 本文就如何解决这个问题总结出一些应对措 ...

  5. c++堆栈溢出怎么解决_StackOverFlowError 常见原因及解决方法

    点击上方"IT牧场",选择"设为星标" 技术干货每日送达! 每一个 JVM 线程都拥有一个私有的 JVM 线程栈,用于存放当前线程的 JVM 栈帧(包括被调用函 ...

  6. 云服务器无法远程连接常见原因如下:

    云服务器无法远程连接常见原因如下: 带宽跑满(不一定是正常业务的带宽,有可能是中马之后异常发包). 系统问题:卡死.蓝屏.系统文件丢失导致系统损坏等. 系统内安装安全类软件后,未开放相应的协议及端口而 ...

  7. 真空系统漏气常见原因

    TXB2016.2 随着真空技术的发展,在半导体工业.表面科学.真空冶金.生物制药.新材料生产与研究等领域中,真空系统的应用越来越广泛.在真空技术的应用中,真空系统的漏气是绝对的.不可避免的.我们需要 ...

  8. DivCSS网页布局中CSS无效的十个常见原因

    在学习DivCSS网页布局的知识,可是W3C validation有时难以操作,但用它你可以查看由版面设计引起的差错.验证程序抛出大量差错和警告,说明你的XHTML尚未完善,可能无法在不同浏览器上保持 ...

  9. 内存泄露从入门到精通三部曲之常见原因与用户实践

    2019独角兽企业重金招聘Python工程师标准>>> 内存泄露从入门到精通三部曲之常见原因与用户实践 腾讯Bugly特约作者: 姚潮生 常见原因 1.集合类 集合类如果仅仅有添加元 ...

  10. 柴油发电机为什么会出现故障?需要注意的5个常见原因

    如今,柴油发电机几乎是每个行业的必备机器,工业柴油发电机主要用于在停电期间为设施.企业甚至家庭提供备用电源,在当地电网不可用或难以接入的地区,柴油发电机也被用作主要电源. 实际上,柴油发电机有多种用途 ...

最新文章

  1. 售前比售后机器人控制逻辑更复杂,仅凭大规模数据后发优势难赶超!
  2. 【c语言】求最大最小值
  3. python 列表解析
  4. ArcGIS放射状流向地图
  5. 20140904 atoi字符串转化为整数源码
  6. Java操作Hbase进行建表、删表以及对数据进行增删改查,条件查询
  7. TP5 急速上手 语法规则
  8. ithoughts怎么自定义样式_微信小程序自定义导航栏组件封装
  9. Windows7无法访问(远程登录)Windows 2003共享问题解决
  10. 微信小程序 数组索引 data-“”解释
  11. 卸载mscs、活动目录、dns方法
  12. android 来电拒接_[系统漏洞]模拟耳机广播实现来电自动接听和拒接
  13. Spring Boot 启动类真的是XXApplication?
  14. 中达优控触摸屏编程视频教程_YKBuilder(中达优控触摸屏编程软件)下载 v5.0.200官方版-下载啦...
  15. lisp弧度转度分秒_用C语言实现度分秒与弧度的转化
  16. 人生的意义无非就是在平淡中活着
  17. C++简介 C语言编程原理
  18. iOS多线程简单理解
  19. 为什么?为什么?Java处理排序后的数组比没有排序的快?想过没有?
  20. 数字图像处理2021.9.27—空域方法-滤波处理Filter subimage

热门文章

  1. CXK, 出来打球!
  2. CVPR'22 最新132篇论文分方向整理|包含目标检测、图像处理、医学影像等28个方向...
  3. magic2410支持大容量sdhc卡解决办法
  4. python qq机器人 发送文件_10.【代码】QQ群发机器人 - Python网络爬虫实战
  5. 周鸿祎逢打仗便兴奋 奇虎360先通杀再找路
  6. 高动态范围(High-Dynamic Range,简称HDR)
  7. 用python画一个树_如何用python简单画一棵树
  8. 河南民办计算机大学排名,2021河南民办大学排名 河南最好的民办本科高校有哪些...
  9. windows10升级助手_微软官网下载与安装windows10系统的操作步骤
  10. 连上hdmi后没有声音。