网站有没有反爬,如果你没有用爬虫抓取过,你是不可能知道的。

就算要测试,你还要尝试不同的delay。

如果设置的 delay 在网站的反爬频率外,那就测不出来。

如果在频率内,那就被封。或者封ip,或者封账号。

如果一定要测出来,就简单粗暴的方法,你不要设置delay,就不间断的抓,最后出现两种情况,

1、网站有反爬,你被封。

然后呢,这个结果没意义,除非你能准备测试出网站反爬的那个频率,才能针对的做出一些防反爬的措施。

2、网站没反爬,没被封。

这个好像是你要的结果。但是这个也有不同情况,你要测多长时间,才能触发到网站的反爬机制。

还有,相同的delay,相同的网站,用不同工具抓取,也会出现不同的效果。

其实,不管你抓什么网站,就道德方面,你都要把网站当成有反爬来对待。如果因为网站没反爬,你就不设置delay,不停的抓取,占据网站的带宽,那正常的用户,可能就会出现一些无法响应等的异常情况,这不道德啊。

如果你是编程的话,设置随机delay,隔段时间切换ip。

如果你是使用工具,比如火车头、八爪鱼、webscraper的话,我建议使用webscraper

webscraper是个谷歌插件,有如下优点——免费

不受操作系统限制,只要安装Chrome浏览器即可运行

操作简单,易上手。(很多没有技术背景的同学,都可以快速学会)

功能强大:不仅可以抓静态网页,对于js动态加载的数据,也很容易抓取

根据已经测试的经历,下列类型网站均可抓取——58同城、大众点评、美团、链家等

微信公众号、简书、知乎、博客等

淘宝、阿里巴巴、网易严选等可以在浏览器查看到的数据,99%均可抓取。

而且防反爬比其他工具好很多,据实践研究,用其他工具很容易被封的网站,用webscraper就没事。

下面这个网站有学习webscraper的系统资料,有兴趣可以看看。不用写代码的爬虫技能 | 知识星球精选站​www.zsxq100.com

python爬虫反爬-爬虫怎么测试反爬?相关推荐

  1. Python爬虫第二课 Selenium介绍和反爬技术

    selenium的介绍 知识点: 了解 selenium的工作原理 了解 selenium以及chromedriver的安装 掌握 标签对象click点击以及send_keys输入 1. seleni ...

  2. Python实训day04am【爬虫介绍、爬取网页测试、Python第三方库】

    Python实训-15天-博客汇总表 目录 1.文本文件编程题 2.爬虫(Scrapy) 2.1.安装第三方库 2.2.爬取网页测试 2.2.1.样例1 2.2.2.样例2 3.PyCharm导入第三 ...

  3. python反反爬虫教学_爬虫进阶:反反爬虫技巧

    主要针对以下四种反爬技术:Useragent过滤:模糊的Javascript重定向:验证码:请求头一致性检查. 高级网络爬虫技术:绕过 "403 Forbidden",验证码等 爬 ...

  4. 腾讯动漫爬虫与动态随机加载反爬破解技术实战

    本文作者韦玮原创,转载请注明出处. 项目需求与问题引入 有时,我们想爬取腾讯动漫中的漫画,比如,我们不妨打开腾讯动漫中某一个动漫的网址ac.qq.com/Comic/comic-,如下图所示: 然后, ...

  5. 前端电子表数字字体_爬虫:如何优雅应对字体反爬

    目录 THE BEGIN 一 什么是字体反爬 二 如何解密 1.人工解密 2.工具解密 三 建立映射关系 四 解密 THE BEGIN 网页数据爬取可以简单分为三步:抓取页面,分析页面,存储数据.其中 ...

  6. python反爬虫与绕过_python中绕过反爬虫的方法总结

    我们在登山的途中,有不同的路线可以到达终点.因为选择的路线不同,上山的难度也有区别.就像最近几天教大家获取数据的时候,断断续续的讲过header.地址ip等一些的方法.具体的爬取方法相信大家已经掌握住 ...

  7. 大佬带你详解Python反爬虫措施以及爬虫编写注意事项

    Python爬虫开发:反爬虫措施以及爬虫编写注意事项 反爬虫的几重措施 1.IP限制 如果是个人编写的爬虫,IP可能是固定的,那么发现某个IP请求过于频繁并且短时间内访问大量的页面,有爬虫的嫌疑,作为 ...

  8. 爬虫进阶路程4——绕过ip反爬

    概述     如果走到了这里,算是到了爬虫的终极,因为这说明别人的服务器除了通过并发速度来识别出你是爬虫已经没有其他方式阻止你了,到了这里你也没有太多花里胡哨的招式,就一招:ip代理池.原理也很简单, ...

  9. 介绍一款反爬虫页面的爬虫利器 Puppeteer

    点击上方 蓝色文字,选择"置顶公众号" 第一时间关注 Python 技术干货! 阅读文本大概需要 6 分钟. 今天给大家介绍一款反爬虫页面的爬虫利器 Puppeteer. Pupp ...

  10. 踩坑的Python爬虫:新手如何在一个月内学会爬取大规模数据?

    Python爬虫为什么受欢迎 如果你仔细观察,就不难发现,懂爬虫.学习爬虫的人越来越多,一方面,互联网可以获取的数据越来越多,另一方面,像 Python这样的编程语言提供越来越多的优秀工具,让爬虫变得 ...

最新文章

  1. 将多窗体应用程序改造为仿Chrome形式的简易方法
  2. Unity4.6新UI系统初探(uGUI)
  3. 自己添加ODBC数据源的Access驱动
  4. SpringCloud微服务带来的问题
  5. [SpringSecurity]web权限方案_自动登陆_原理分析和具体实现
  6. HDU5765 Bonds (高维前缀和)
  7. Jsp中Uploadify插件的使用(jQuery上传插件)
  8. 优先级队列——实现二维数组排序
  9. java 私有静态类_java中,在私有的静态类中如何触发jbutton
  10. android vlc m3u8,Exoplayer播放m3u8文件Android
  11. 堆密度测定的意义_堆密度的意义是什么 汇美科LABULK 0335
  12. 前端后端的区别(超详细版)
  13. 磁盘被写保护怎样去掉
  14. Python中的*和**
  15. 有趣好玩的Linux之代码雨效果
  16. mysql区间左开右闭_左开右闭区间怎么写
  17. java实现导出内容不固定的word文档
  18. [AV1] AV1 Reference Software
  19. 在java中如何让背景图片连续不断地滚动_JS实现图片的不间断连续滚动
  20. EXCEL数据之美:带你走进数据可视化

热门文章

  1. 特斯拉将在2019年底推出电动汽车皮卡和另一款超级工厂
  2. 【总结】java.lang.StackOverflowError错误原因及解决办法
  3. 李彦宏妻子马东敏向中科大捐赠一亿,成立“蔷薇科大发展基金”
  4. 简述TCP/IP 协议栈
  5. 天哪!男朋友对大姨妈的误解有多深?
  6. 职场吐槽大会,原来办公软件也有如此多神技能?
  7. windows仍在设置此类设备的类配置,代码56
  8. 安装配置Influxdb
  9. 1.41亿老人遭受过虐待,厌老憎老为何成了时代病?
  10. 我帮你踩坑:ubuntu18.04 docker换源