我们想要获取一些大量数据,经常会被拦截住,这是因为访问太频繁的原因,一旦账号不能使用又会带来很大的麻烦。针对于这种情况,小编想了两个应对的方法,一个是网站方面,另一个是地址方面的。本篇会着重于地址方面的方法介绍,相信大家对于这方面的方法使用上会更加频繁,具体的分析请往下看:

单台机器,单个IP大家都明白,短时间内访问一个网站几十次后肯定会被屏蔽的。每个网站对IP的解封策略也不一样,有的1小时候后又能重新访问,有的要一天,有的要几个月去了。

突破抓取频率限制有两种方式,一种是研究网站的反爬策略。有的网站不对列表页做频率控制,只对详情页控制。有的针对特定UA,referer,或者微信的H5页面的频率控制要弱很多。

另一种方式就是多IP抓取。

多IP抓取又分IP代理池和adsl拨号两种,我这里说adsl拨号的方式,IP代理池相对于adsl来说,我觉得收费太贵了。要稳定大规模抓取肯定是要用付费的,一个月也就100多块钱。adsl的特点是可以短时间内重新拨号切换IP,IP被禁止了重新拨号一下就可以了。这样你就可以开足马力疯狂抓取了,但是一天只有24小时合86400秒,要如何一天抓过百万网页,让网络性能最大化也是需要下一些功夫的,后面我再详说。至于有哪些可以adsl拨号的野云主机,你在百度搜"vps adsl",能选择的厂商很多的。大多宣称有百万级IP资源可拨号,我曾测试过一段时间,把每次拨号的IP记录下来,有真实二三十万IP的就算不错了。 选adsl的一个注意事项是,有的厂商拨号IP只能播出C段和D段IP,110(A段).132(B段).3(C段).2(D段),A和B段都不会变,靠C,D段IP高频次抓取对方网站,有可能对方网站把整个C/D段IP都封掉。C/D段加一起255X255就是6万多个IP全都报废,所以要选拨号IP范围较宽的厂商。 这些都是野云主机,质量和稳定性本就没那么好。只有多试一试,试的成本也不大,买一台玩玩一个月也就一百多元,还可以按天买。

上面为什么说不用付费的IP代理池?

因为比adsl拨号贵很多,因为全速抓取时,一个反爬做得可以的网站10秒内就会封掉这个IP,所以10秒就要换一个IP,理想状况下一天86400秒,要换8640个IP。如果用付费IP代理池的话,一个代理IP收费4分钱,8640个IP一天就要345元。 adsl拨号的主机一个月才100多元。adsl拨号Python代码怎么拨号厂商都会提供的,建议是用厂商提供的方式,这里只是示例:windows下用os调用rasdial拨号:import os

# 拨号断开

os.popen('rasdial 网络链接名称 /disconnect')

# 拨号

os.popen('rasdial 网络链接名称 adsl账号 adsl密码')

linux下拨号:import os

# 拨号断开

code = os.system('ifdown 网络链接名称')

# 拨号code = os.system('ifup 网络链接名称')

关于应对python反爬虫的办法,网络上的解决也是五花八门,这里小编分享了自己的一些理解,希望能对一些有需要的小伙伴有所帮助,更多方法我们也可以不断交流。更多Python学习指路:PyThon学习网教学中心。

python3 函数类型限制登录可解封_如何解决python反爬虫限制访问?相关推荐

  1. python函数可以作为容器对象吗_正确理解Python函数是第一类对象

    正确理解 Python函数,能够帮助我们更好地理解 Python 装饰器.匿名函数(lambda).函数式编程等高阶技术. 函数(Function)作为程序语言中不可或缺的一部分,太稀松平常了.但函数 ...

  2. python3是指版本号是3.吗_如何选择Python版本2还是3

    阅读本文大概需要4分钟 很多初学者刚开始学python的时候,一定都遇到过这个问题,python的世界有2个版本,python2 和 python3 ,而且有些 语法还不兼容. 怎么办~~到底应该选择 ...

  3. python函数中可变参数的传递方式_详解Python函数可变参数定义及其参数传递方式...

    Python函数可变参数定义及其参数传递方式详解 python中 函数不定参数的定义形式如下 1. func(*args) 传入的参数为以元组形式存在args中,如: def func(*args): ...

  4. scrapy mysql 模拟登录知乎_详细的Python Scrapy模拟登录知乎

    之前爬取携程和51job都是免登陆就能爬取数据的,但是今天爬取知乎的时候就需要登录后才能爬到数据,那我们只能进行模拟登录了. 知乎登录分为邮箱登录和手机登录两种方式,通过浏览器的开发者工具查看,我们通 ...

  5. 只有python可以爬虫吗_无所不能的Python之爬虫那点事儿

    今天给大家介绍一个有趣的新技术--爬虫.首先来讲一下啥是爬虫. 爬虫也叫网络爬虫,是一种按照一定的规则,自动地抓取万维网信息的程序或者脚本.通俗的来讲,爬虫就是一段程序,它来根据你的设定自己去互联网上 ...

  6. python朋友圈动态_如何利用Python网络爬虫爬取微信朋友圈动态--附代码(下)

    前天给大家分享了如何利用Python网络爬虫爬取微信朋友圈数据的上篇(理论篇),今天给大家分享一下代码实现(实战篇),接着上篇往下继续深入. 一.代码实现 1.修改Scrapy项目中的items.py ...

  7. 杭州自学python爬虫_金华自学python网络爬虫直播

    金华自学python网络爬虫直播操作符说明实例.表示任何单个字符?[ ]字符集,对单个字符给出取值范围[abc],表示a,b,c,[a-z]表示a到z的单个字符[^ ]非字符集,对单个字符给出排除范围 ...

  8. python抓取朋友圈动态_如何利用Python网络爬虫爬取微信朋友圈动态--附代码(下)...

    原标题:如何利用Python网络爬虫爬取微信朋友圈动态--附代码(下) 前天给大家分享了如何利用Python网络爬虫爬取微信朋友圈数据的上篇(理论篇),今天给大家分享一下代码实现(实战篇),接着上篇往 ...

  9. 玩转python网络爬虫 黄永祥_玩转Python网络爬虫

    第1章理解网络爬虫 1 1.1 爬虫的定义 1 1.2 爬虫的类型 2 1.3 爬虫的原理 3 1.4 爬虫的搜索策略 5 1.5 反爬虫技术及解决方案 6 1.6 本章小结 8 第2章爬虫开发基础 ...

最新文章

  1. java 行为模式_java设计模式--行为模式
  2. python的软件叫什么-django中的app是指什么
  3. 基于php的医院管理,基于PHP的医院管理信息系统的设计与实现
  4. Linux yum更新源url
  5. DataRow 点不出 Select
  6. SourceTree 实现 git flow 流程
  7. oracle 11.2.0.4 make 报错,linux7安装oracle11.2.0.4RAC注意事项
  8. Panel控件—让你的界面变好看
  9. 2020-4-18 深度学习笔记20 - 深度生成模型 2 (深度信念网络DBN,深度玻尔兹曼机DBM)
  10. WCF基础教程(三)——WCF通信过程及配置文件解析
  11. windows上使用mkcert颁发证书
  12. PotPlayer播放DST音频的mkv电影解码错误
  13. Error: EBUSY: resource busy or locked
  14. Spring-Messaging远程代码执行漏洞复现(CVE-2018-1270)
  15. 阿里为Linux内核调度器提出一个新的”组平衡器”概念
  16. 一个水藻,经过两天的生长后,从第3天开始每天都会分裂出一个新藻,而分裂出的新藻同样经过两天的生长,也会从第3天开始每天分裂出一个新藻,问经过n天后,共有多少个水藻存在。暂时不考虑藻死亡的情况。
  17. java毕业设计网络招聘系统源码+lw文档+mybatis+系统+mysql数据库+调试
  18. IP-guard 双机热备使用说明
  19. hdu6112今夕何夕
  20. 垃圾清理软件CCleaner 规则下载软件CCEnhancer

热门文章

  1. mysql数据导入报错1265
  2. React Native 仿 ofo 共享单车 App
  3. 如何在 JavaScript 中使用对象解构
  4. Pspice——可控硅的控制
  5. 智能音箱里小度、小爱、天猫精灵哪个更加好?(上)
  6. 电信重组:移动圈地联通抢山头 电信干等
  7. 转圈加载html,web前端入门到实战:纯CSS实现加载转圈样式
  8. 乐酷工作室孙志伟:Testin云测试有广度有深度 省钱省力值得信赖
  9. Datagrip连接mysql错误[08S01]解决办法
  10. 抖音直播新号怎么引流,抖音直播间起号如何渡过冷启动期?